Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2022-06-30, 03:13

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 3 篇文章 ] 
發表人 內容
 文章主題 : 請問intercloud傳送檔案問題
文章發表於 : 2014-06-03, 12:46 
離線

註冊時間: 2014-06-03, 11:56
文章: 4
我現在有4台node分成兩個雲端,每個雲端裡有兩個node

當我傳送job給MapReduce處理時,因為處理的資料量量很大,所以透過程式(InputFormat)去切割輸入資料分配給多個mapper處理,
這是在第一個雲端

如果當第一個雲端的資料處理量太大時,我希望能傳送切割的檔案給第二個雲端mapper運算,
這兩個雲端的連接方式不是經由設定檔將node連接起來而是完全分離的

想請問一下,在hadoop裡有什麼方法或api可以傳送第一個雲端的切割檔案到第二個雲端並呼叫MapReduce運算?


謝謝


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請問intercloud傳送檔案問題
文章發表於 : 2014-06-03, 23:05 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
ncuelab117 寫:
我現在有4台node分成兩個雲端,每個雲端裡有兩個node
當我傳送job給MapReduce處理時,因為處理的資料量量很大,所以透過程式(InputFormat)去切割輸入資料分配給多個mapper處理,
這是在第一個雲端
如果當第一個雲端的資料處理量太大時,我希望能傳送切割的檔案給第二個雲端mapper運算,
這兩個雲端的連接方式不是經由設定檔將node連接起來而是完全分離的
想請問一下,在hadoop裡有什麼方法或api可以傳送第一個雲端的切割檔案到第二個雲端並呼叫MapReduce運算?
謝謝


如果網路是通的,資料放在 hdfs://NameNode1/路徑,另一組是 hdfs://NameNode2
MapReduce 跑在 JobTracker2 ,可以用「hdfs://NameNode1/路徑」當輸入

不確定是不是你要的~

另一個可能,您要的是跨叢集的 Meta-Scheduler .... 那是 Grid Computing 時代的事情了~
當時是用 Globus 提交任務,並搭配 GridFTP 來搬運資料到有運算資源的 Cluster 上。
技術上可行,但面對 Big Data .... 我會說上述陳述違反 Big Data 在地運算的精神。

要將 Cluster 1 的 InputSplit 給 Cluster 2 的 Mapper ....
可能得從自訂 InputFormat 下手了~ 僅能解決資料搬運問題....
其次還有 Job 該怎麼跨 Cluster 1 and Cluster 2 .... 也就是 Meta-Scheduler 的設計 ....
在 Grid Computing 年代有此想法,但實務上效率不佳。
當初常態還是同一個 Job 在同一個 Cluster 運算,跨 Cluster 的情境,無法用 MPI ....
MapReduce 倒是可行,算完得再想辦法搬結果。

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請問intercloud傳送檔案問題
文章發表於 : 2014-06-05, 14:44 
離線

註冊時間: 2014-06-03, 11:56
文章: 4
謝謝jazz大大的回答,小弟偏好第二種的作法,目前以ftp傳送資料方式來實作看看


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 3 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 1 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作