Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2022-07-02, 10:43

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 6 篇文章 ] 
發表人 內容
 文章主題 : 請問要怎麼上傳檔案到國網中心的hdfs啊
文章發表於 : 2014-02-27, 18:43 
離線

註冊時間: 2013-10-15, 21:01
文章: 50
最近想在國網中心測試一下我的東西,
結果不知道要怎麼上傳檔案,可以給我一個完整的教學嗎
我只為在國網中心的建立檔案,如果我要上傳input的檔案就一直失敗,我的語法
hadoop fs -put c:/10node.txt /user/h4506/MST/
MST是我建立的目錄
我在C槽放入10node.txt檔案要上傳,打這語法一直出錯
請大大門指點 ,我因該怎麼做
MapReduce的jar檔 也是要上傳到hdfs上在執行嗎??


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請問要怎麼上傳檔案到國網中心的hdfs啊
文章發表於 : 2014-02-28, 09:12 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
AndyTsai 寫:
最近想在國網中心測試一下我的東西,
結果不知道要怎麼上傳檔案,可以給我一個完整的教學嗎
我只為在國網中心的建立檔案,如果我要上傳input的檔案就一直失敗,我的語法
hadoop fs -put c:/10node.txt /user/h4506/MST/
MST是我建立的目錄
我在C槽放入10node.txt檔案要上傳,打這語法一直出錯
請大大門指點 ,我因該怎麼做
MapReduce的jar檔 也是要上傳到hdfs上在執行嗎??


ㄜ....如果您用的是 Windoop, 那因為版本不同( hadoop.nchc.org.tw 是 Hadoop 0.20 版本, Windoop 不是這個版本 )

總之,習慣上我們的作法是用 Filezilla 或 WinSCP 將檔案上傳到 hadoop.nchc.org.tw
然後 SSH 登入 hadoop.nchc.org.tw
在 hadoop.nchc.org.tw 的 SSH 視窗中下 hadoop fs -put 10node.txt MST/.

如果要直接從 Windows 上傳的話,會遇到幾個問題
(1) 帳號 - Windows 帳號為 user, 可是遠端帳號為 h4506,是沒有權限可以上傳的。變成要在 Windows 上建立 h4506 的帳號,用該帳號才能上傳
(2) 版本 - 要用 Cygwin + Hadoop 0.20 的版本,並將 hadoop/conf 底下的 core-site.xml 跟 mapred-site.xml 設定成
代碼:
  <property>
    <name>fs.default.name</name>
    <value>hdfs://140.110.134.1:8020</value>
  </property>

代碼:
  <property>
    <name>mapred.job.tracker</name>
    <value>140.110.134.1:8021</value>
  </property>


可以做得到,只是設定上如果觀念不清楚,會傳不上去。
至於透過 Windoop 的 Hadoop Eclipse Plugin ,一樣會遇到 Eclipse Plugin 的 Hadoop 版本不相容問題。
所以即使 Windoop 的 Hadoop Eclipse Plugin 可以設定 NameNode 是 140.110.134.1:8020 ,JobTracker 是 140.110.134.1:8021
但連線時 Eclipse Plugin 就會報錯了~

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請問要怎麼上傳檔案到國網中心的hdfs啊
文章發表於 : 2014-02-28, 14:33 
離線

註冊時間: 2013-10-15, 21:01
文章: 50
Jazz大大,我這邊也是有Mac電腦可以用,有需要也是可以用Mac操作,因為我平時用window操控mac
也是先用Cygwin的終端機來連ssh到mac,再用WinSCP 丟檔案,
我本然以為國網中心因該也是把input丟到國網的HDFS上,然後jar擋...我也不知道要丟到國網中心的哪裡..

我這邊有幾個問題!?
所以國網中心的意思是要用自己的電腦當Master的意思嗎!?(因為要有hadoop才能跑!?)

我還是有點不太了解,請問用WinSCP跟ssh連的時候,一值叫我輸入密碼,請問密碼是甚麼呢,
是因為我用window登入才會有這個密碼不對的問題,如果去mac就不會有這問題了是嗎!?
麻煩jazz大大回答一下了,感謝。


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請問要怎麼上傳檔案到國網中心的hdfs啊
文章發表於 : 2014-03-02, 10:14 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
AndyTsai 寫:
Jazz大大,我這邊也是有Mac電腦可以用,有需要也是可以用Mac操作,因為我平時用window操控mac
也是先用Cygwin的終端機來連ssh到mac,再用WinSCP 丟檔案,
我本然以為國網中心因該也是把input丟到國網的HDFS上,然後jar擋...我也不知道要丟到國網中心的哪裡..

我這邊有幾個問題!?
所以國網中心的意思是要用自己的電腦當Master的意思嗎!?(因為要有hadoop才能跑!?)

我還是有點不太了解,請問用WinSCP跟ssh連的時候,一值叫我輸入密碼,請問密碼是甚麼呢,
是因為我用window登入才會有這個密碼不對的問題,如果去mac就不會有這問題了是嗎!?
麻煩jazz大大回答一下了,感謝。


1. 請把國網的 hadoop.nchc.org.tw 當成 Mac 用吧 (都是 Unix-like) :)
  input 資料以及 jar 檔,請用 scp (Mac 上的指令) 或 WinSCP / FileZilla (windows 上的類似 FTP Client 軟體,只是給 SFTP 用的)
  上傳到 hadoop.nchc.org.tw ,然後再用 PuTTY 或 PieTTY 透過 SSH 連線到 hadoop.nchc.org.tw 下指令 hadoop fs -put 上傳檔案
  下指令 hadoop jar <您的 jar> 執行任務。

2. 我們不會稱自己的電腦為 Master,在 Hadoop 術語中,執行 hadoop fs 與 hadoop jar 的都稱為 Hadoop Client
  這裏面有一些網路限制,因為 hadoop.nchc.org.tw 只有一個公開 IP,其餘都是 private IP,因此會有很多連線上的限制。
  這免不了必須有這些限制,因為 hadoop.nchc.org.tw 是一個公開的服務,必須考慮保護使用者資料安全。

3. 用 Mac 還是會有帳號密碼的限制,您詢問的密碼是信件中配給您 h4506 帳號的密碼。
  不管用 Mac 或 Windows 都一樣必須在 Mac 或 Windows 上建立 h4506 的帳號,
  並安裝 Haodop (為了執行 Hadoop Client 的基本環境),才能直接將資料透過 hadoop fs 進行上傳。
  透過 hadoop jar 直接提交 Mac 或 Windows 的任務到 hadoop.nchc.org.tw

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請問要怎麼上傳檔案到國網中心的hdfs啊
文章發表於 : 2014-03-02, 10:47 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
流程如下圖。

附加檔案:
hadoop.nchc.org.tw.png
hadoop.nchc.org.tw.png [ 95.61 KiB | 被瀏覽 6872 次 ]


為什麼要這麼麻煩呢?因為網路架構的原因。如果要完全不遇到網路問題,必須建立 VPN 連線。

因為 Hadoop Client 在執行 hadoop fs -put 的時候,會先問 NameNode(NN) 然後再由 Hadoop Client 連線 DataNode(DN)
所以如果您用 Windows 或 Mac 當作 Hadoop Client,會連得到 NN 卻無法連線 DN

執行 hadoop jar 的時候比較沒這個問題,因為提交任務時,Hadoop Client 只有連線到 JobTracker (JT),
把 JAR 檔傳給 JT,再由 JT 分配給 TaskTracker (TT)。
所以如果要從 Windows 或 Mac 透過 Eclipse Plugin 純粹提交任務(Job),就不會遇到網路的限制。

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請問要怎麼上傳檔案到國網中心的hdfs啊
文章發表於 : 2014-03-02, 11:04 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
使用 Windows / Mac 搭配 Windoop / Hadoop4Win / Hadoop + Eclipse 的示意流程如下圖:
附加檔案:
hadoop.nchc.org.tw_2.png
hadoop.nchc.org.tw_2.png [ 98.2 KiB | 被瀏覽 6872 次 ]


會有一些基本限制:
(1) 在 Windows / Mac 上必須使用與 hadoop.nchc.org.tw 相同的 hXXXX 帳號登入
(2) 資料上傳仍舊還是得先落地 hadoop.nchc.org.tw

- Jazz


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 6 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 2 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作