Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2022-07-03, 19:08

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 2 篇文章 ] 
發表人 內容
 文章主題 : Hadoop job檔案切割越小,job完成所需的時間越久?
文章發表於 : 2014-06-29, 15:27 
離線

註冊時間: 2012-09-14, 10:32
文章: 16
有一個問題想請教各位先進,我先描述一下工作內容

首先我有四個工作節點(也就是data node)與一個名稱節點(name node)

我使用單台電腦裝四台虛擬機架設

我想利用Hadoop MapReduce做視訊編碼的動作

我把一個檔案切割成四等分給Hadoop做視訊轉碼假設所需時間為2小時

但如果我把檔案切得更小,所需的時間反而多很多

想請問各位這是為什麼呢?


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: Hadoop job檔案切割越小,job完成所需的時間越久?
文章發表於 : 2014-12-08, 00:05 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
jeffrey77918 寫:
有一個問題想請教各位先進,我先描述一下工作內容
首先我有四個工作節點(也就是data node)與一個名稱節點(name node)
我使用單台電腦裝四台虛擬機架設
我想利用Hadoop MapReduce做視訊編碼的動作
我把一個檔案切割成四等分給Hadoop做視訊轉碼假設所需時間為2小時
但如果我把檔案切得更小,所需的時間反而多很多
想請問各位這是為什麼呢?


這是合理的,在平行運算領域,有個基本的判斷法則

「單一份資料的運算時間」必須遠大於「單一份資料的傳輸時間」加上「準備時間(如排程)」。

根據經驗,光是 JobTracker 排程的時間約需要 15~20 秒。
所以資料切得愈細,單一份資料的運算時間愈變愈短,但準備時間比重卻變很高。
四等份,排程四次。一百等份,等於排程一百次。
平行運算並不是切割愈小,就會算得愈快。還是會有最佳的切割量。

- Jazz


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 2 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 1 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作