Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2018-10-22, 13:07

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 2 篇文章 ] 
發表人 內容
 文章主題 : hadoop mapreduce效能問題
文章發表於 : 2016-03-22, 20:45 
離線

註冊時間: 2016-03-22, 20:38
文章: 9
我是在一台實體機,用win7安裝hadoop,
以下是測試wordcount的實驗,
我把reducer分成三個,跑出來的時間比一個reducer還要慢
程式設定如下
測試一個檔案
1.job.setNumReduceTasks(1)-大約30秒
2.job.setNumReduceTasks(3)-大約38秒
請問有什麼方法能夠讓單機運算的時候強制分散cpu進行同時執行,
加快效能之類的,如果不行的話就只能考慮安裝虛擬機三台(不過有點麻煩),
所以想請這方面的專家是否能克服這個問題?


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hadoop mapreduce效能問題
文章發表於 : 2016-03-24, 22:49 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
poolikujm123 寫:
我是在一台實體機,用win7安裝hadoop,
以下是測試wordcount的實驗,
我把reducer分成三個,跑出來的時間比一個reducer還要慢
程式設定如下
測試一個檔案
1.job.setNumReduceTasks(1)-大約30秒
2.job.setNumReduceTasks(3)-大約38秒
請問有什麼方法能夠讓單機運算的時候強制分散cpu進行同時執行,
加快效能之類的,如果不行的話就只能考慮安裝虛擬機三台(不過有點麻煩),
所以想請這方面的專家是否能克服這個問題?


基本上,這件事情的關鍵還是回歸到「資料量」。
過去我一直在論壇上提一個觀念,越分散不見得效能越好。
平行運算要變快是有前提的,簡略來說就是「運算時間」遠高於「傳輸時間+排程時間」
切越碎,反而會比沒有切來得慢,這是非常合理的結果。

Hadoop MapReduce 排程,依經驗大約會花掉 15~20 秒左右。
所以實質上,我通常會先看到底 mapper 跟 reducer 每個 task 各跑了多久(幾秒)。

- Jazz


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 2 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 2 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作