Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2022-07-03, 18:58

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 9 篇文章 ] 
發表人 內容
 文章主題 : hadoop可以不從HDFS讀取/寫入資料嗎
文章發表於 : 2013-10-28, 12:10 
離線

註冊時間: 2013-07-29, 18:14
文章: 17
想請教版上前輩,我可以指定hadoop的input/output
不需從hdfs去讀取或輸出嗎?
查詢不知道用甚麼關鍵字好
謝謝


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hadoop可以不從HDFS讀取/寫入資料嗎
文章發表於 : 2013-10-28, 12:22 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
phile22114 寫:
想請教版上前輩,我可以指定hadoop的input/output
不需從hdfs去讀取或輸出嗎?
查詢不知道用甚麼關鍵字好
謝謝


Hadoop 支援非常多種檔案系統,重點是要修改 core-site.xml 中 dfs.default.name 的設定。

如果您多台機器都用 NFS 掛載自同一個 NAS 到 /mnt
您可以將 dfs.default.name 設為 file:///
並以 /mnt/input 當作輸入,/mnt/output 當作輸出。

參考 ${HADOOP_HOME}/src/core/org/apache/hadoop/fs 目錄的內容,
http://answers.oreilly.com/topic/456-get-to-know-hadoop-filesystems/
以下是目前 Hadoop 支援的檔案系統:


- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hadoop可以不從HDFS讀取/寫入資料嗎
文章發表於 : 2013-10-28, 12:29 
離線

註冊時間: 2013-07-29, 18:14
文章: 17
感謝jazz大,想在請教一下
如果我要用的FS是hadoop不支援的
例如說,我有一個database的server
我想用client的api,拿取server中存放的資料
這該怎麼下手呢?
謝謝


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hadoop可以不從HDFS讀取/寫入資料嗎
文章發表於 : 2013-10-28, 15:55 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
phile22114 寫:
感謝jazz大,想在請教一下
如果我要用的FS是hadoop不支援的
例如說,我有一個database的server
我想用client的api,拿取server中存放的資料
這該怎麼下手呢?
謝謝


不確定您的問題是否為想拿 database 當輸入或輸出,
若您想拿 DB 當 MapReduce 的輸入或輸出,請搜尋關鍵字 DBInputFormat 與 DBOutputFormat

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hadoop可以不從HDFS讀取/寫入資料嗎
文章發表於 : 2013-10-29, 16:35 
離線

註冊時間: 2013-07-29, 18:14
文章: 17
tks,Jazz大
我想做到的可能是,不是從原本hadoop所支援的DB去讀/寫資料
想問前輩可否提示可以從哪邊下手?
或是有哪位前輩有做過類似的事情呢?
感謝^^


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hadoop可以不從HDFS讀取/寫入資料嗎
文章發表於 : 2013-10-29, 17:56 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
phile22114 寫:
tks,Jazz大
我想做到的可能是,不是從原本hadoop所支援的DB去讀/寫資料
想問前輩可否提示可以從哪邊下手?
或是有哪位前輩有做過類似的事情呢?
感謝^^


可能是,不是? 語意不詳..... 實在不知道該給什麼提示了 XD
我不是算命半仙,可以「測字」,看到那幾個字就知道該怎麼回答。如果問題陳述不清楚,說真的別人很難幫忙~

這樣講好了,若是檔案系統,有檔案系統的作法。要從 FileSystem 類別下手。
例如:華碩雲端的 Object Storage 不是 Amazon S3,所以不是 Hadoop 預設支援的系統,
您想要讓華碩雲端的 Object Storage 可以當作 Hadoop MapReduce 的輸入輸出?
(同理,可換成中華電信 S3 儲存服務、IBM GPFS、Lustre、Ceph 等各式各樣的檔案系統)

資料庫,有資料庫的作法。
關聯式資料庫應該只要有 JDBC connector 就可以用 DBInputFormat 與 DBOutputFormat 存取。
說白一點吧~到底目標是哪個 DB? Access? VisualFoxPro ? DBase?

如果是很老的 DB,那能否 dump DB 內容成純文字?然後再對純文字做分析呢?
為了解決問題,不能直接連,就只好「轉進」其他方式。您講的透過 Client API 應該就是這個想走這條路。
那 Client 怎麼連上 DB 呢?只有 ODBC ?
有沒有可能有某個 JDBC 轉 ODBC 的方式呢?
有沒有可能從原始資料庫將資料拋轉到 Hadoop 有支援的資料庫呢?
以上是我想得到的提示~

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hadoop可以不從HDFS讀取/寫入資料嗎
文章發表於 : 2013-10-29, 19:11 
離線

註冊時間: 2013-07-29, 18:14
文章: 17
抱歉Jazz大,下次發文前會先檢查 下午恍惚語意不清ORZ

我想用一個儲存系統input data給M/R程式以及M/R程式的output

而要用哪一種儲存系統還沒有決定偏向(NOSQL 或是 key/value store )+ HDFS並行

還在survey中,有看到一兩篇paper,是在hadoop加上memcached

目前想朝著這方向實作看看

關於這方向,不知道Jazz大可否給我一些意見

感謝你很有耐心的回覆我問題


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hadoop可以不從HDFS讀取/寫入資料嗎
文章發表於 : 2013-10-29, 23:20 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
phile22114 寫:
抱歉Jazz大,下次發文前會先檢查 下午恍惚語意不清ORZ
我想用一個儲存系統input data給M/R程式以及M/R程式的output
而要用哪一種儲存系統還沒有決定偏向(NOSQL 或是 key/value store )+ HDFS並行
還在survey中,有看到一兩篇paper,是在hadoop加上memcached
目前想朝著這方向實作看看
關於這方向,不知道Jazz大可否給我一些意見
感謝你很有耐心的回覆我問題


Hadoop + memcached 通常用在演算法需要「全域變數(Global Variable)」
不是拿 memcached 當 input 或 output (當然也不是不行)
全域變數應用,實作上,就直接拿 memcached 的 java API 在 map() 與 reduce() 中實作即可
若要拿 memcached 當輸入、輸出,感覺必須自訂 DBInputFormat ~

NoSQL 有非常多都支援 Hadoop MapReduce 了,像是 HBase, MongoDB, Cassandra 都有支援。

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hadoop可以不從HDFS讀取/寫入資料嗎
文章發表於 : 2013-10-30, 13:00 
離線

註冊時間: 2013-07-29, 18:14
文章: 17
謝謝Jazz大,對於memcached方面我的想法和您相同

這樣就可以放心做了 :)

NoSQL方面我再去survey看看

再次感謝您!


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 9 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 1 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作