Taiwan Hadoop Forum
http://forum.hadoop.tw/

Hadoop job檔案切割越小,job完成所需的時間越久?
http://forum.hadoop.tw/viewtopic.php?f=7&t=38248
1 頁 (共 1 頁)

發表人:  jeffrey77918 [ 2014-06-29, 15:27 ]
文章主題 :  Hadoop job檔案切割越小,job完成所需的時間越久?

有一個問題想請教各位先進,我先描述一下工作內容

首先我有四個工作節點(也就是data node)與一個名稱節點(name node)

我使用單台電腦裝四台虛擬機架設

我想利用Hadoop MapReduce做視訊編碼的動作

我把一個檔案切割成四等分給Hadoop做視訊轉碼假設所需時間為2小時

但如果我把檔案切得更小,所需的時間反而多很多

想請問各位這是為什麼呢?

發表人:  jazz [ 2014-12-08, 00:05 ]
文章主題 :  Re: Hadoop job檔案切割越小,job完成所需的時間越久?

jeffrey77918 寫:
有一個問題想請教各位先進,我先描述一下工作內容
首先我有四個工作節點(也就是data node)與一個名稱節點(name node)
我使用單台電腦裝四台虛擬機架設
我想利用Hadoop MapReduce做視訊編碼的動作
我把一個檔案切割成四等分給Hadoop做視訊轉碼假設所需時間為2小時
但如果我把檔案切得更小,所需的時間反而多很多
想請問各位這是為什麼呢?


這是合理的,在平行運算領域,有個基本的判斷法則

「單一份資料的運算時間」必須遠大於「單一份資料的傳輸時間」加上「準備時間(如排程)」。

根據經驗,光是 JobTracker 排程的時間約需要 15~20 秒。
所以資料切得愈細,單一份資料的運算時間愈變愈短,但準備時間比重卻變很高。
四等份,排程四次。一百等份,等於排程一百次。
平行運算並不是切割愈小,就會算得愈快。還是會有最佳的切割量。

- Jazz

1 頁 (共 1 頁) 所有顯示的時間為 UTC + 8 小時
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
http://www.phpbb.com/