Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2022-06-28, 04:25

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 3 篇文章 ] 
發表人 內容
 文章主題 : 請問架好mapreduce叢集,hdfs上的資料要如何全部刪除,包含其他node與錯誤問題
文章發表於 : 2014-02-12, 12:40 
離線

註冊時間: 2013-10-15, 21:01
文章: 50
請問叢集式mapreduce,當我跑完在hdfs上的資料,要如何把他全部清除,
有時候在連hdfs,如果hdfs上有資料,卻沒把其他node電腦連上,就會無法使用hdfs,
(也就是當我上一步用幾台電腦跑,下一次就要有這些全部電腦連上,不然就會無法使用hdfs)
然後我就必須到全部的node電腦上把所有hdfs上的資料夾手動刪除......把master上的hdfs也刪除
請問這個有解嗎,我是用windoop做的。

以下是我另一個錯誤程式碼,由於我的mapreduce程式只要跑大例子,超過兩小時以上的,幾乎沒有跑玩過,感覺都是連接的節點電腦不穩,死掉就當掉了,不過mapreduce不是有防呆機制,為什麼以下這個錯誤沒辦法把map完全做完呢,請大師們解一下,感謝!
14/02/12 01:51:33 INFO mapred.JobClient: Task Id : attempt_201402111742_0024_m_041766_0, Status : FAILED
java.lang.Throwable: Child Error
at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:271)
Caused by: java.io.IOException: Task process exit with nonzero status of 1.
at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:258)

java.lang.Throwable: Child Error
at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:271)
Caused by: java.io.IOException: Task process exit with nonzero status of 1.
at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:258)
//============================================================
14/02/12 01:53:53 INFO mapred.JobClient: map 85% reduce 28%
14/02/12 02:09:42 INFO mapred.JobClient: Job complete: job_201402111742_0024
14/02/12 02:09:42 INFO mapred.JobClient: Counters: 21
14/02/12 02:09:42 INFO mapred.JobClient: Job Counters
14/02/12 02:09:42 INFO mapred.JobClient: Launched reduce tasks=1
14/02/12 02:09:42 INFO mapred.JobClient: SLOTS_MILLIS_MAPS=198953639
14/02/12 02:09:42 INFO mapred.JobClient: Total time spent by all reduces waiting after reserving slots (ms)=0
14/02/12 02:09:42 INFO mapred.JobClient: Total time spent by all maps waiting after reserving slots (ms)=0
14/02/12 02:09:42 INFO mapred.JobClient: Launched map tasks=42410
14/02/12 02:09:42 INFO mapred.JobClient: SLOTS_MILLIS_REDUCES=15470142
14/02/12 02:09:42 INFO mapred.JobClient: Failed map tasks=1
14/02/12 02:09:42 INFO mapred.JobClient: FileSystemCounters
14/02/12 02:09:42 INFO mapred.JobClient: FILE_BYTES_READ=824704
14/02/12 02:09:42 INFO mapred.JobClient: HDFS_BYTES_READ=3292916683
14/02/12 02:09:42 INFO mapred.JobClient: FILE_BYTES_WRITTEN=868332494
14/02/12 02:09:42 INFO mapred.JobClient: HDFS_BYTES_WRITTEN=17944075
14/02/12 02:09:42 INFO mapred.JobClient: File Input Format Counters
14/02/12 02:09:42 INFO mapred.JobClient: Bytes Read=154612299
14/02/12 02:09:42 INFO mapred.JobClient: Map-Reduce Framework
14/02/12 02:09:42 INFO mapred.JobClient: Map output materialized bytes=6158675
14/02/12 02:09:42 INFO mapred.JobClient: Combine output records=0
14/02/12 02:09:42 INFO mapred.JobClient: Map input records=37764
14/02/12 02:09:42 INFO mapred.JobClient: Spilled Records=77579
14/02/12 02:09:42 INFO mapred.JobClient: Map output bytes=5776933
14/02/12 02:09:42 INFO mapred.JobClient: Total committed heap usage (bytes)=6071088070656
14/02/12 02:09:42 INFO mapred.JobClient: Combine input records=0
14/02/12 02:09:42 INFO mapred.JobClient: Map output records=77579
14/02/12 02:09:42 INFO mapred.JobClient: SPLIT_RAW_BYTES=4380624
Exception in thread "main" java.io.FileNotFoundException: File does not exist: /user/root/output6/part-r-00000
at org.apache.hadoop.hdfs.DFSClient$DFSInputStream.openInfo(DFSClient.java:1843)
at org.apache.hadoop.hdfs.DFSClient$DFSInputStream.<init>(DFSClient.java:1834)
at org.apache.hadoop.hdfs.DFSClient.open(DFSClient.java:578)
at org.apache.hadoop.hdfs.DistributedFileSystem.open(DistributedFileSystem.java:154)
at org.apache.hadoop.fs.FileSystem.open(FileSystem.java:427)
at only.Kruskal3.main(Kruskal3.java:483)


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請問架好mapreduce叢集,hdfs上的資料要如何全部刪除,包含其他node與錯誤問題
文章發表於 : 2014-02-17, 23:15 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
AndyTsai 寫:
請問叢集式mapreduce,當我跑完在hdfs上的資料,要如何把他全部清除,
有時候在連hdfs,如果hdfs上有資料,卻沒把其他node電腦連上,就會無法使用hdfs,
(也就是當我上一步用幾台電腦跑,下一次就要有這些全部電腦連上,不然就會無法使用hdfs)
然後我就必須到全部的node電腦上把所有hdfs上的資料夾手動刪除......把master上的hdfs也刪除
請問這個有解嗎,我是用windoop做的。

以下是我另一個錯誤程式碼,由於我的mapreduce程式只要跑大例子,超過兩小時以上的,幾乎沒有跑玩過,感覺都是連接的節點電腦不穩,死掉就當掉了,不過mapreduce不是有防呆機制,為什麼以下這個錯誤沒辦法把map完全做完呢,請大師們解一下,感謝!

Exception in thread "main" java.io.FileNotFoundException: File does not exist: /user/root/output6/part-r-00000


1. HDFS 是靠「副本(Replication)」來提供可靠度,因此跟您跑的台數有關。若副本個數為 2,當離線的台數高於 2 就有風險。如果您一定要把某台機器離線,可以跑 DataNode 的 Decomission
https://www.google.com.tw/search?q=datanode+decommission

若沒事就想把台數變來變去,例如本來是 10 台,只想開 3 台。這樣是容易出問題的。
如果資料不重要,那最簡單的解法是重新 format NameNode,
並把 NameNode 的 namespaceId 改回原本跟 DataNode 一致的數字。

2. MapReduce 的防呆先決條件是 HDFS 處於穩定狀態,
從錯誤訊息看起來,是檔案無法輸出或無法讀取 /user/root/output6/part-r-00000
就像如果你要跑的程式會需要讀取 5 個同學的網芳資料,只要隨便有一個同學要去睡覺關機,程式做防呆,資料不見了,還是沒輒。

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請問架好mapreduce叢集,hdfs上的資料要如何全部刪除,包含其他node與錯誤問題
文章發表於 : 2014-02-18, 01:19 
離線

註冊時間: 2013-10-15, 21:01
文章: 50
jazz 寫:
AndyTsai 寫:
請問叢集式mapreduce,當我跑完在hdfs上的資料,要如何把他全部清除,
有時候在連hdfs,如果hdfs上有資料,卻沒把其他node電腦連上,就會無法使用hdfs,
(也就是當我上一步用幾台電腦跑,下一次就要有這些全部電腦連上,不然就會無法使用hdfs)
然後我就必須到全部的node電腦上把所有hdfs上的資料夾手動刪除......把master上的hdfs也刪除
請問這個有解嗎,我是用windoop做的。

以下是我另一個錯誤程式碼,由於我的mapreduce程式只要跑大例子,超過兩小時以上的,幾乎沒有跑玩過,感覺都是連接的節點電腦不穩,死掉就當掉了,不過mapreduce不是有防呆機制,為什麼以下這個錯誤沒辦法把map完全做完呢,請大師們解一下,感謝!

Exception in thread "main" java.io.FileNotFoundException: File does not exist: /user/root/output6/part-r-00000


1. HDFS 是靠「副本(Replication)」來提供可靠度,因此跟您跑的台數有關。若副本個數為 2,當離線的台數高於 2 就有風險。如果您一定要把某台機器離線,可以跑 DataNode 的 Decomission
https://www.google.com.tw/search?q=datanode+decommission

若沒事就想把台數變來變去,例如本來是 10 台,只想開 3 台。這樣是容易出問題的。
如果資料不重要,那最簡單的解法是重新 format NameNode,
並把 NameNode 的 namespaceId 改回原本跟 DataNode 一致的數字。

2. MapReduce 的防呆先決條件是 HDFS 處於穩定狀態,
從錯誤訊息看起來,是檔案無法輸出或無法讀取 /user/root/output6/part-r-00000
就像如果你要跑的程式會需要讀取 5 個同學的網芳資料,只要隨便有一個同學要去睡覺關機,程式做防呆,資料不見了,還是沒輒。

- Jazz


感謝大大回答,很清楚。


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 3 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 4 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作