Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2022-06-30, 02:31

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 7 篇文章 ] 
發表人 內容
 文章主題 : Hadoop叢集架設在不同網段
文章發表於 : 2014-04-27, 20:52 
離線

註冊時間: 2014-04-27, 20:47
文章: 4
小弟我最近要架設hadoop的全分布模式

因為有很多文章、書都是教如何在同一個區域網路上

ex. 192.168.0.1 master
192.168.0.2 slave1
192.168.0.3 slave2

如果我的master端要架設在別的網段(非192.168.0.XX)

請問要如何設定呢? :?

P.S 我是使用windoop 1.0.3 app/service mode


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: Hadoop叢集架設在不同網段
文章發表於 : 2014-04-27, 22:12 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
只要沒有遇到 NAT ,
只要 Worker Node (執行 DataNode 跟 TaskTracker) 將 core-site.xml 與 mapred-site.xml 中
NameNode 位址與 JobTracker 位址設定正確
是可以跨網域的。

不過一般我們不喜歡這麼做的原因是,如果網路延遲很長(Ex. 異地)
那資料傳輸的時間可能會遠超過運算時間,效率就會變得很糟糕。

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: Hadoop叢集架設在不同網段
文章發表於 : 2014-04-27, 23:58 
離線

註冊時間: 2014-04-27, 20:47
文章: 4
jazz 寫:
只要沒有遇到 NAT ,
只要 Worker Node (執行 DataNode 跟 TaskTracker) 將 core-site.xml 與 mapred-site.xml 中
NameNode 位址與 JobTracker 位址設定正確
是可以跨網域的。

不過一般我們不喜歡這麼做的原因是,如果網路延遲很長(Ex. 異地)
那資料傳輸的時間可能會遠超過運算時間,效率就會變得很糟糕。

- Jazz


jazz大~

謝謝您的回覆,我大概懂您的意思

再跟你確認一次...

假設Master IP:168.100.0.102
Slave1 IP:192.116.0.33
Slave2 IP:160.100.0.1

只需修改core-site mapred-site的參數就可以了嗎
--------------------core-site--------------------
<property>
<name>fs.default.name</name>
<value>hdfs://168.100.0.102:9000/</value>
</property>
-------------------mapred-site------------------
<property>
<name>mapred.job.tracker</name>
<value>168.100.0.102:9001</value>
</property>

謝謝! :D


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: Hadoop叢集架設在不同網段
文章發表於 : 2014-04-28, 08:42 
離線

註冊時間: 2014-04-27, 20:47
文章: 4
dragon820208 寫:
jazz 寫:
只要沒有遇到 NAT ,
只要 Worker Node (執行 DataNode 跟 TaskTracker) 將 core-site.xml 與 mapred-site.xml 中
NameNode 位址與 JobTracker 位址設定正確
是可以跨網域的。

不過一般我們不喜歡這麼做的原因是,如果網路延遲很長(Ex. 異地)
那資料傳輸的時間可能會遠超過運算時間,效率就會變得很糟糕。

- Jazz


jazz大~

謝謝您的回覆,我大概懂您的意思

再跟你確認一次...

假設Master IP:168.100.0.102
Slave1 IP:192.116.0.33
Slave2 IP:160.100.0.1

只需修改core-site mapred-site的參數就可以了嗎
--------------------core-site--------------------
<property>
<name>fs.default.name</name>
<value>hdfs://168.100.0.102:9000/</value>
</property>
-------------------mapred-site------------------
<property>
<name>mapred.job.tracker</name>
<value>168.100.0.102:9001</value>
</property>

謝謝! :D


BTW....假設我有兩台(一台Master一台Slave)是使用分享器接出來的網路

這樣Master IP算是NAT嗎?


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: Hadoop叢集架設在不同網段
文章發表於 : 2014-04-28, 09:29 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
dragon820208 寫:
BTW....假設我有兩台(一台Master一台Slave)是使用分享器接出來的網路
這樣Master IP算是NAT嗎?


如果兩台分屬不同的分享器,算在不同的 NAT 裏面。這樣不會通。

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: Hadoop叢集架設在不同網段
文章發表於 : 2014-04-28, 12:06 
離線

註冊時間: 2014-04-27, 20:47
文章: 4
jazz 寫:
dragon820208 寫:
BTW....假設我有兩台(一台Master一台Slave)是使用分享器接出來的網路
這樣Master IP算是NAT嗎?


如果兩台分屬不同的分享器,算在不同的 NAT 裏面。這樣不會通。

- Jazz


所以假設有一間公司,要從那間公司中的某台電腦Master(NameNode,JobTracker)發送執行

而Slave端(DataNode,TaskTracker)在某地的實驗室

會無法將公司的電腦與實驗室的電腦群叢集在一起?

這算是Hadoop的瓶頸嗎? :shock:


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: Hadoop叢集架設在不同網段
文章發表於 : 2014-04-29, 00:45 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
dragon820208 寫:
所以假設有一間公司,要從那間公司中的某台電腦Master(NameNode,JobTracker)發送執行
而Slave端(DataNode,TaskTracker)在某地的實驗室
會無法將公司的電腦與實驗室的電腦群叢集在一起?
這算是Hadoop的瓶頸嗎? :shock:


可以辦得到,只是不建議。(先從網路層下手)

不能說這是 Hadoop 的瓶頸,而該說原本 Hadoop 或者 Google 的論文情境就不是將「異地」抽象化成一組抽象的叢集。
為什麼?因為當你有 16 PB 的資料,要運算時,必須在內部網路之間傳輸,網路的效率就是影響幾時算完的因子。

在 RAID 中,只要有一顆硬碟是慢的,就會拖慢整個讀寫的效率(等最慢的那顆)。
同理,如果公司與實驗室之間的網路是很糟糕的,那某個運算 Job 恰巧要算的資料分佈在公司跟實驗室兩地。
當無法滿足「Data Local」與「Rack Local」時,就必須把資料從實驗室搬到公司進行運算,這時候就會拖慢整個 Job 的完成時間。

Big Data 的基本精神都是「減少資料在不同地點、不同機器之間搬運」,所以您講的情境恰巧違反了最開始的假設。

技術上已經有 BOINC 這樣的 Volunteer Computing 架構可以做到您講的事情。
(BOINC Server 負責分配資料給 BOINC Client 計算(Map),算完傳回結果給 BOINC Server 彙整(Reduce))
因此,不是 Hadoop 的錯,而是不同的應用場景,該用不同的工具。

- Jazz


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 7 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 2 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作