Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2022-07-03, 19:25

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 3 篇文章 ] 
發表人 內容
 文章主題 : 關於不同 Input Size 的問題
文章發表於 : 2014-04-29, 23:08 
離線

註冊時間: 2014-04-29, 22:54
文章: 3
請問在不同的 Input Size ,但是 map task 插槽沒滿
map 執行時間為何會不同呢?

ex :
Input=640MB、2GB
blockSize=64MB
Map Task Capacity=42
這樣的話
Input=640MB,啟動10個mapper
Input=2G,啟動32個mapper

照理來說每一個 mapper 是平行個別執行的,
但是為什麼會最後執行結果,Input=2G 的 Map 執行時間卻比 Input=640MB 大得多?


(新手發文,請多多指教 :oops: )


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 關於不同 Input Size 的問題
文章發表於 : 2014-04-29, 23:18 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
不能直接從 Input Size 推論運算時間耶。
因為真正影響運算時間的因素,跟資料內容有關。
2G 的資料如果有「分佈傾斜」的情形,會變成某個 mapper 執行很久,其他都很快結束。

其次,即使插槽沒滿,但假設每台預設 4 個 mapper,只有一顆硬碟,
同時 2 個 mapper 在搶同一顆硬碟的執行速度會比同時 4 個 mapper 在搶同一顆硬碟來得快。

因此,要考量的因素很多,不能單純就 Input Size 推論運算時間。

- Jazz

kd12 寫:
請問在不同的 Input Size ,但是 map task 插槽沒滿
map 執行時間為何會不同呢?

ex :
Input=640MB、2GB
blockSize=64MB
Map Task Capacity=42
這樣的話
Input=640MB,啟動10個mapper
Input=2G,啟動32個mapper

照理來說每一個 mapper 是平行個別執行的,
但是為什麼會最後執行結果,Input=2G 的 Map 執行時間卻比 Input=640MB 大得多?


(新手發文,請多多指教 :oops: )


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 關於不同 Input Size 的問題
文章發表於 : 2014-04-29, 23:56 
離線

註冊時間: 2014-04-29, 22:54
文章: 3
恩恩,我了解了!

感謝 Jazz大大 :D


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 3 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 2 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作