Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2020-01-20, 11:49

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 3 篇文章 ] 
發表人 內容
 文章主題 : mapReduce程式裡面的map要再包一個mapReduce,是否會有問題呢??
文章發表於 : 2013-12-31, 17:20 
離線

註冊時間: 2013-10-15, 21:01
文章: 50
如果我的mapReduce程式裡面的map要再包一個mapReduce,是否會有問題呢??
假設有兩個mapReduce,mapReduce1,mapReduce2
如果mapReduce1裡面的每個map得input都會再丟到mapReduce2裡面處理,mapReduce2 output出來的東西
就會是mapReduce1裡面map得output,然後再根據key丟到mapReduce1得Reducer
這樣是可行的嗎? 大概要怎麼寫才對呢!?
感謝大大門回答!!

今年的最後一天,也祝各位大大新年快樂,尤其感謝JAZZ大大的回答,真的解決我不少問題,感謝!


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: mapReduce程式裡面的map要再包一個mapReduce,是否會有問題呢??
文章發表於 : 2013-12-31, 23:17 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
AndyTsai 寫:
如果我的mapReduce程式裡面的map要再包一個mapReduce,是否會有問題呢??
假設有兩個mapReduce,mapReduce1,mapReduce2
如果mapReduce1裡面的每個map得input都會再丟到mapReduce2裡面處理,mapReduce2 output出來的東西
就會是mapReduce1裡面map得output,然後再根據key丟到mapReduce1得Reducer
這樣是可行的嗎? 大概要怎麼寫才對呢!?
感謝大大門回答!!
今年的最後一天,也祝各位大大新年快樂,尤其感謝JAZZ大大的回答,真的解決我不少問題,感謝!


若 MapReduce 順序很複雜,個人會建議您採用 MapReduce 的 Workflow 引擎,
例如 Oozie 或 Cascading 把所需的 Mapper 跟 Reducer 串接在一起,把多個 Job 組成 Workflow。
http://oozie.apache.org/
http://www.cascading.org/

如果是多個不同的 mapper 邏輯跟多個不同的 Reducer 邏輯要組成一個 Job,
則建議採用 ChainMapper 跟 ChainReducer
https://hadoop.apache.org/docs/stable/api/org/apache/hadoop/mapred/lib/ChainMapper.html
https://hadoop.apache.org/docs/stable/api/org/apache/hadoop/mapred/lib/ChainReducer.html

您陳述的問題情境,就我的解讀比較接近 ChainMapper。

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: mapReduce程式裡面的map要再包一個mapReduce,是否會有問題呢??
文章發表於 : 2014-01-02, 18:23 
離線

註冊時間: 2013-10-15, 21:01
文章: 50
jazz 寫:
AndyTsai 寫:
如果我的mapReduce程式裡面的map要再包一個mapReduce,是否會有問題呢??
假設有兩個mapReduce,mapReduce1,mapReduce2
如果mapReduce1裡面的每個map得input都會再丟到mapReduce2裡面處理,mapReduce2 output出來的東西
就會是mapReduce1裡面map得output,然後再根據key丟到mapReduce1得Reducer
這樣是可行的嗎? 大概要怎麼寫才對呢!?
感謝大大門回答!!
今年的最後一天,也祝各位大大新年快樂,尤其感謝JAZZ大大的回答,真的解決我不少問題,感謝!


若 MapReduce 順序很複雜,個人會建議您採用 MapReduce 的 Workflow 引擎,
例如 Oozie 或 Cascading 把所需的 Mapper 跟 Reducer 串接在一起,把多個 Job 組成 Workflow。
http://oozie.apache.org/
http://www.cascading.org/

如果是多個不同的 mapper 邏輯跟多個不同的 Reducer 邏輯要組成一個 Job,
則建議採用 ChainMapper 跟 ChainReducer
https://hadoop.apache.org/docs/stable/api/org/apache/hadoop/mapred/lib/ChainMapper.html
https://hadoop.apache.org/docs/stable/api/org/apache/hadoop/mapred/lib/ChainReducer.html

您陳述的問題情境,就我的解讀比較接近 ChainMapper。

- Jazz


感謝大大回答
不過ChainMapper有版本差,要再研究看看了!


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 3 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 1 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作