Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2022-06-29, 01:58

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 3 篇文章 ] 
發表人 內容
 文章主題 : 請教MapReduce程式邏輯架構
文章發表於 : 2014-06-06, 20:19 
離線

註冊時間: 2012-09-17, 23:06
文章: 47
各位前輩好:

小弟依照MapReduce架構寫了一個推論程式,

如下URL可連結至下載專案:
https://docs.google.com/file/d/0B54F9FE ... hZUGc/edit

測試環境由Hadoop叢集環境7台PC,與Hadoop單機環境

測試結果並非預期一樣,測試結果如下圖:
附加檔案:
test1.JPG
test1.JPG [ 69.35 KiB | 被瀏覽 5445 次 ]


在Hadoop單機與Hadoop叢集並沒有呈現大幅落差,因此感到疑惑><"

該程式主要是想透過MapReduce分散式推論,並非像WordCount範例是剖析文字內容,因此並沒有資料搜尋的邏輯在本程式

想請教各位前輩,MapReduce上是否還有什麼其他程式寫法,可提升本程式效能

或者小弟的程式邏輯錯了?

有求於各位前輩的見解


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請教MapReduce程式邏輯架構
文章發表於 : 2014-06-10, 18:29 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
aacbajba 寫:
在Hadoop單機與Hadoop叢集並沒有呈現大幅落差,因此感到疑惑><"
該程式主要是想透過MapReduce分散式推論,並非像WordCount範例是剖析文字內容,因此並沒有資料搜尋的邏輯在本程式
想請教各位前輩,MapReduce上是否還有什麼其他程式寫法,可提升本程式效能
或者小弟的程式邏輯錯了?
有求於各位前輩的見解


還沒有看您的程式,不過通常要先確認您的問題是「運算密集(Computing Intensive)」還是「讀寫密集(Data Intensive)」。
也就是說,如果您有安裝 Ganglia,比較能夠知道 CPU 用量、記憶體用量、硬碟用量,哪個是最大的效能瓶頸。

其次,效能不如預期有另一個原因,您很可能沒有調整 map/reduce 的 mapper/reducer 個數。
諸如此類的問題,不太能單就程式邏輯來推論為何效率不彰。

因此,在此建議您最好先安裝 Ganglia 的系統狀態監控程式,因為「先能量測,才能控制」!

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請教MapReduce程式邏輯架構
文章發表於 : 2014-06-22, 13:05 
離線

註冊時間: 2012-09-17, 23:06
文章: 47
jazz 寫:
還沒有看您的程式,不過通常要先確認您的問題是「運算密集(Computing Intensive)」還是「讀寫密集(Data Intensive)」。
也就是說,如果您有安裝 Ganglia,比較能夠知道 CPU 用量、記憶體用量、硬碟用量,哪個是最大的效能瓶頸。

其次,效能不如預期有另一個原因,您很可能沒有調整 map/reduce 的 mapper/reducer 個數。
諸如此類的問題,不太能單就程式邏輯來推論為何效率不彰。

因此,在此建議您最好先安裝 Ganglia 的系統狀態監控程式,因為「先能量測,才能控制」!

- Jazz


謝謝Jazz前輩的指點,小弟有安裝Ganglia進行分析,

對於Ganglia也沒用過,正在熟悉如何去查看他的變化。

然而問題點出在哪,正在釐清當中


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 3 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 1 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作