Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2022-07-02, 10:36

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 5 篇文章 ] 
發表人 內容
 文章主題 : 請問input與output的資料要放到HDFS上還是本機電腦上!?
文章發表於 : 2014-01-05, 22:40 
離線

註冊時間: 2013-10-15, 21:01
文章: 50
請問MapReduce的資料因該是要放到電腦上還是hdfs上!?
因為我一直以來都是放到hdfs上,今天想試著把輸出的資料放到電腦上,竟然都一直失敗...(我是用windows+eclipse)
輸出路徑我從hdfs://localhost:9000/user/root/input/BFS改成D:/output都一直出錯..請問是哪裡有問題嗎!?

請問如果今天我有個大問題要一直迴圈,我要一直輸出到HDFS上,又要把輸出的資料當成下一次的輸入,要怎麼做呢??

再一個真正的分散式系統下,是不是寫一個MapReduce程式,輸入跟輸出都要再hdfs上才是對的!?

煩請大大門回答,感謝!


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請問input與output的資料要放到HDFS上還是本機電腦上!?
文章發表於 : 2014-01-06, 00:25 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
AndyTsai 寫:
請問MapReduce的資料因該是要放到電腦上還是hdfs上!?
因為我一直以來都是放到hdfs上,今天想試著把輸出的資料放到電腦上,竟然都一直失敗...(我是用windows+eclipse)
輸出路徑我從hdfs://localhost:9000/user/root/input/BFS改成D:/output都一直出錯..請問是哪裡有問題嗎!?
請問如果今天我有個大問題要一直迴圈,我要一直輸出到HDFS上,又要把輸出的資料當成下一次的輸入,要怎麼做呢??
再一個真正的分散式系統下,是不是寫一個MapReduce程式,輸入跟輸出都要再hdfs上才是對的!?
煩請大大門回答,感謝!


1. 單機模式(local mode), 路徑為本機檔案系統(file://)。
  偽分散式(pseudo distributed mode)與全分散式模式(full distributed mode),路徑為 HDFS (hdfs://,嚴格講起來要看 core-site.xml 的設定)。

2. 同您前則討論

建議將邏輯改為

String input="data_"+Integer.toString(i-1);
String output="data_"+Integer.toString(i);

FileInputFormat.setInputPaths(conf, new Path(input));
FileOutputFormat.setOutputPath(conf, new Path(output));

然後將輸入放在 data_0 目錄中,這樣第一次會產生 data_1,第二次會用 data_1 當輸入,產生 data_2,依此類推。

若嫌上述方法,會產生太多中間產物資料,亦可使用請改用 FileSystem 類別的函數 rename(Path, Path),
在產生 output 後,刪除 input (用函數 delete(Path f, boolean recursive)),將 output 更名為 input。

http://hadoop.apache.org/docs/stable/api/org/apache/hadoop/fs/FileSystem.html#rename%28org.apache.hadoop.fs.Path,%20org.apache.hadoop.fs.Path%29

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請問input與output的資料要放到HDFS上還是本機電腦上!?
文章發表於 : 2014-01-06, 00:42 
離線

註冊時間: 2013-10-15, 21:01
文章: 50
jazz 寫:
AndyTsai 寫:
請問MapReduce的資料因該是要放到電腦上還是hdfs上!?
因為我一直以來都是放到hdfs上,今天想試著把輸出的資料放到電腦上,竟然都一直失敗...(我是用windows+eclipse)
輸出路徑我從hdfs://localhost:9000/user/root/input/BFS改成D:/output都一直出錯..請問是哪裡有問題嗎!?
請問如果今天我有個大問題要一直迴圈,我要一直輸出到HDFS上,又要把輸出的資料當成下一次的輸入,要怎麼做呢??
再一個真正的分散式系統下,是不是寫一個MapReduce程式,輸入跟輸出都要再hdfs上才是對的!?
煩請大大門回答,感謝!


1. 單機模式(local mode), 路徑為本機檔案系統(file://)。
  偽分散式(pseudo distributed mode)與全分散式模式(full distributed mode),路徑為 HDFS (hdfs://,嚴格講起來要看 core-site.xml 的設定)。

2. 同您前則討論

建議將邏輯改為

String input="data_"+Integer.toString(i-1);
String output="data_"+Integer.toString(i);

FileInputFormat.setInputPaths(conf, new Path(input));
FileOutputFormat.setOutputPath(conf, new Path(output));

然後將輸入放在 data_0 目錄中,這樣第一次會產生 data_1,第二次會用 data_1 當輸入,產生 data_2,依此類推。

若嫌上述方法,會產生太多中間產物資料,亦可使用請改用 FileSystem 類別的函數 rename(Path, Path),
在產生 output 後,刪除 input (用函數 delete(Path f, boolean recursive)),將 output 更名為 input。

http://hadoop.apache.org/docs/stable/api/org/apache/hadoop/fs/FileSystem.html#rename%28org.apache.hadoop.fs.Path,%20org.apache.hadoop.fs.Path%29

- Jazz



超感謝大大得,這個為我解惑很多,所以真正得當我跑全分散式模式時後資料是要從HDFS上存取的。一直有疑問,資料是否可以不透過HDFS,在本機就可拿取,因為要用到網路感覺就會變慢,才有這個疑問,是否有些跑每次迴圈必定要取得的資料可以從電腦取得..不用一直透過HDFS..;


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請問input與output的資料要放到HDFS上還是本機電腦上!?
文章發表於 : 2014-01-06, 00:52 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
AndyTsai 寫:
超感謝大大得,這個為我解惑很多,所以真正得當我跑全分散式模式時後資料是要從HDFS上存取的。一直有疑問,資料是否可以不透過HDFS,在本機就可拿取,因為要用到網路感覺就會變慢,才有這個疑問,是否有些跑每次迴圈必定要取得的資料可以從電腦取得..不用一直透過HDFS..;


若把 fs.default.name 改成 file:///
代碼:
   conf.set("fs.default.name", "file:///");

即使在偽分散模式,也會用本機檔案系統。

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請問input與output的資料要放到HDFS上還是本機電腦上!?
文章發表於 : 2014-01-08, 00:51 
離線

註冊時間: 2013-10-15, 21:01
文章: 50
jazz 寫:
AndyTsai 寫:
超感謝大大得,這個為我解惑很多,所以真正得當我跑全分散式模式時後資料是要從HDFS上存取的。一直有疑問,資料是否可以不透過HDFS,在本機就可拿取,因為要用到網路感覺就會變慢,才有這個疑問,是否有些跑每次迴圈必定要取得的資料可以從電腦取得..不用一直透過HDFS..;


若把 fs.default.name 改成 file:///
代碼:
   conf.set("fs.default.name", "file:///");

即使在偽分散模式,也會用本機檔案系統。

- Jazz

thx jazz大大,感謝回答!


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 5 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 1 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作