Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2022-08-13, 04:23

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 3 篇文章 ] 
發表人 內容
 文章主題 : 關於JOB和DATA平行處理的問題
文章發表於 : 2013-06-30, 13:26 
離線

註冊時間: 2013-05-01, 19:24
文章: 4
有些問題想請教一下前輩們

我想在HADOOP執行JOB時去搬移尚未使用到的BLOCK,亦即在JOB執行和搬移BLOCK是同步執行的,請問這有辦法實現嗎?

是否該從HADOOP內建的BALANCER去改?

不知該從哪個地方著手會比較好,可以的話請前輩們指點一下方向,謝謝!


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 關於JOB和DATA平行處理的問題
文章發表於 : 2013-07-01, 09:55 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
andy080503 寫:
有些問題想請教一下前輩們
我想在HADOOP執行JOB時去搬移尚未使用到的BLOCK,亦即在JOB執行和搬移BLOCK是同步執行的,請問這有辦法實現嗎?
是否該從HADOOP內建的BALANCER去改?
不知該從哪個地方著手會比較好,可以的話請前輩們指點一下方向,謝謝!


Hadoop 執行 Job 時,會儘量挑 data-local 的 TaskTracker 執行,所以很少有搬運 block 的動作。
發生搬運 block 的時間發生在 rack-local task ,此時 TaskTracker 才會去跟 DataNode 搬運 block。

balancer 是 NameNode 告訴多台 DataNode 該怎麼互相搬,行為發生在 DataNode 與 DataNode 之間,應該不是您要的。

嚴格講起來,您想做的事情可能要追 TaskTracker 或 RecordReader 了。可行,只是需要花不少時間追內部的資料流。

供參考,聽起來比較像是碩士論文題目,Good Luck ~

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 關於JOB和DATA平行處理的問題
文章發表於 : 2013-07-01, 13:48 
離線

註冊時間: 2013-05-01, 19:24
文章: 4
了解!感謝jazz大的回復!


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 3 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 2 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作