Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2022-07-02, 09:59

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 4 篇文章 ] 
發表人 內容
 文章主題 : 請問我map與reduce設定,我不需要用到reduce
文章發表於 : 2014-02-10, 20:00 
離線

註冊時間: 2013-10-15, 21:01
文章: 50
job.setMapperClass(Map1.class);
// job.setCombinerClass(combin.class);
// job.setReducerClass(Reduce1.class);
// job.setNumReduceTasks(2);

我把reduce都槓掉,是否reduce就確實不會發生作用,因為我到localhost:50030看
都還是有一個reduce,上網看是說這是正常的預設值,
但是我很怕他所有map會全部丟到一個reduce才輸出,會嚴重拖慢速度,所以上來確認看看,煩請指教,謝謝。
(我已經是用叢集式跑了,因為我的map已經超過好幾萬個,很怕map資料都會傳到一個reduce上)

請問能有辦法確認叢集式有確實發揮多台電腦的效能嗎,有點擔心我架失敗,其實只有一台再跑...


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請問我map與reduce設定,我不需要用到reduce
文章發表於 : 2014-02-17, 23:02 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
AndyTsai 寫:
job.setMapperClass(Map1.class);
// job.setCombinerClass(combin.class);
// job.setReducerClass(Reduce1.class);
// job.setNumReduceTasks(2);
我把reduce都槓掉,是否reduce就確實不會發生作用,因為我到localhost:50030看
都還是有一個reduce,上網看是說這是正常的預設值,
但是我很怕他所有map會全部丟到一個reduce才輸出,會嚴重拖慢速度,所以上來確認看看,煩請指教,謝謝。
(我已經是用叢集式跑了,因為我的map已經超過好幾萬個,很怕map資料都會傳到一個reduce上)
請問能有辦法確認叢集式有確實發揮多台電腦的效能嗎,有點擔心我架失敗,其實只有一台再跑...


把 reduce 個數設為零,就會是 map-only job
job.setNumReduceTasks(0);

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請問我map與reduce設定,我不需要用到reduce
文章發表於 : 2014-02-18, 01:21 
離線

註冊時間: 2013-10-15, 21:01
文章: 50
jazz 寫:
AndyTsai 寫:
job.setMapperClass(Map1.class);
// job.setCombinerClass(combin.class);
// job.setReducerClass(Reduce1.class);
// job.setNumReduceTasks(2);
我把reduce都槓掉,是否reduce就確實不會發生作用,因為我到localhost:50030看
都還是有一個reduce,上網看是說這是正常的預設值,
但是我很怕他所有map會全部丟到一個reduce才輸出,會嚴重拖慢速度,所以上來確認看看,煩請指教,謝謝。
(我已經是用叢集式跑了,因為我的map已經超過好幾萬個,很怕map資料都會傳到一個reduce上)
請問能有辦法確認叢集式有確實發揮多台電腦的效能嗎,有點擔心我架失敗,其實只有一台再跑...


把 reduce 個數設為零,就會是 map-only job
job.setNumReduceTasks(0);

- Jazz

感謝大大回答,因為不設置,再localhost50030,還是會有一個預設的reduce顯示1,所以才有點疑問,感謝!


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請問我map與reduce設定,我不需要用到reduce
文章發表於 : 2014-02-18, 12:40 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
AndyTsai 寫:
感謝大大回答,因為不設置,再localhost50030,還是會有一個預設的reduce顯示1,所以才有點疑問,感謝!


因為 mapred-default.xml 預設 reducer 個數是 1 (mapred.reduce.tasks)
所以程式中不做設定的話,會拿 IndentityReducer 當預設的 reducer,個數 1 個。

代碼:
<property>
  <name>mapred.reduce.tasks</name>
  <value>1</value>
  <description>The default number of reduce tasks per job. Typically set to 99%
  of the cluster's reduce capacity, so that if a node fails the reduces can
  still be executed in a single wave.
  Ignored when mapred.job.tracker is "local".
  </description>
</property>


- Jazz


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 4 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 2 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作