Taiwan Hadoop Forum
http://forum.hadoop.tw/

求助,MapReduce新手的一個問題請教
http://forum.hadoop.tw/viewtopic.php?f=7&t=38344
1 頁 (共 1 頁)

發表人:  h31949913 [ 2017-01-11, 11:53 ]
文章主題 :  求助,MapReduce新手的一個問題請教

大家好,小弟目前正在研究MapReduce中的一些運作方式,

其中有一個問題就是說,如果我Mapper的SplitSize為2倍或3倍的block size大小,

那麼,我在執行Mapper任務的時候會是全部的blocks到了才開始動作嗎?或者可以讓Mapper一個block size到了就先開始動作?

請幫忙小弟吧各位 :roll: ,謝謝了 :)

發表人:  jazz [ 2017-01-12, 14:43 ]
文章主題 :  Re: 求助,MapReduce新手的一個問題請教

h31949913 寫:
大家好,小弟目前正在研究MapReduce中的一些運作方式,
其中有一個問題就是說,如果我Mapper的SplitSize為2倍或3倍的block size大小,
那麼,我在執行Mapper任務的時候會是全部的blocks到了才開始動作嗎?或者可以讓Mapper一個block size到了就先開始動作?
請幫忙小弟吧各位 :roll: ,謝謝了 :)


這是一個關於 InputSplit 與 Block 的差異問題。
可參考:http://stackoverflow.com/questions/30549261/split-size-vs-block-size-in-hadoop

預設如果使用 HDFS 而且不指定 Split Size 的話,Split Size = Block Size,Mapper 一次處理一個 Block
但如果設定 Split Size = Block Size * N 的話,那 Mapper 會讀入 N 個 Block 視為一個 Input Split 才執行 map() 函數。

- Jazz

1 頁 (共 1 頁) 所有顯示的時間為 UTC + 8 小時
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
http://www.phpbb.com/