Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2018-08-16, 23:39

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 5 篇文章 ] 
發表人 內容
 文章主題 : hbase 觀念釐清
文章發表於 : 2013-11-23, 00:22 
離線

註冊時間: 2011-11-11, 23:41
文章: 79
請教先進,

目前想架 hbase 於 hdfs 上,
1. 但有個疑問: hadoop 技術手冊一書Ch 13 Hbase 中提到:

"若要即時或隨機存取海量資料時, 就合適使用 Hbase 這個在 hadoop 應用."

但hbase 架構於 hdfs 上, 而 hdfs 有個特性 write once read many , file 只能追加 .
所以這邊 hbase 做 write 時, 只能 append 囉?! 是這樣嗎 ? (因為 hbase 的 file 是存放於 hdfs , right?) 不知我的觀念有無錯否.


2. 另請教, hbase and Cassandra 在架設(設定)與使用上, 何者比較簡單?

thanks!!


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hbase 觀念釐清
文章發表於 : 2013-11-23, 15:03 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
top 寫:
請教先進,
目前想架 hbase 於 hdfs 上,
1. 但有個疑問: hadoop 技術手冊一書Ch 13 Hbase 中提到:
"若要即時或隨機存取海量資料時, 就合適使用 Hbase 這個在 hadoop 應用."
但hbase 架構於 hdfs 上, 而 hdfs 有個特性 write once read many , file 只能追加 .
所以這邊 hbase 做 write 時, 只能 append 囉?! 是這樣嗎 ? (因為 hbase 的 file 是存放於 hdfs , right?) 不知我的觀念有無錯否.
2. 另請教, hbase and Cassandra 在架設(設定)與使用上, 何者比較簡單?
thanks!!


1. 不全然只有 Append 一途。因為 HBase 有 Version 的概念,每個 Version 有可能寫入不同檔案,
  因此只有當 row key 相同時,才會發生 Append 的情形。

2. 就設定複雜度而言,Cassandra 比較簡單,HBase 因為相依 Hadoop,所以等於要設定兩套系統。
 使用上兩者都是 Key-Value Store,相較於 SQL 簡單,但不見得易用。
  這句話聽起來有點詭異,但因為 Key-Value Store 的語法只有 set, get, delete,
  所以如果要做 JOIN, 需要 LIKE 這種模糊搜尋,無論是 HBase 或 Cassandra 都得自己找其他方式來補強。

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hbase 觀念釐清
文章發表於 : 2013-11-23, 18:24 
離線

註冊時間: 2011-11-11, 23:41
文章: 79
Thanks Jazz share!

jazz 寫:
1. 不全然只有 Append 一途。因為 HBase 有 Version 的概念,每個 Version 有可能寫入不同檔案
- Jazz

--> Hbase 如此設計, 不知是否因為受限於hdfs write once read many 的關係!?
不然寫於不同檔案, 一來佔用 space, 二來 performance down. (當然也是有其版本控制的優點, 只能看 user 剛好要的是什麼)

jazz 寫:
  因此只有當 row key 相同時,才會發生 Append 的情形。
- Jazz

目前有 benchmark support 這項測試的?! YCSB? If you know.
Many thanks.


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hbase 觀念釐清
文章發表於 : 2013-11-23, 21:56 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
top 寫:
Hbase 如此設計, 不知是否因為受限於hdfs write once read many 的關係!?
不然寫於不同檔案, 一來佔用 space, 二來 performance down. (當然也是有其版本控制的優點, 只能看 user 剛好要的是什麼)
目前有 benchmark support 這項測試的?! YCSB? If you know.
Many thanks.


很抱歉,這部份我沒有直接證據,因為原本我以為 HBase 是把每一筆 row key - value 當成一個 HFile 來存放。
但事實上,根據觀察 HDFS 的 HBase 目錄並非如此。目前觀察到的是一個 Region 對應一個以上的 HFile。
而每個 Region 實際上是存放多組(介於一個範圍) row key 對應的所有值(value of column-family & column-quantifier)。所以 HBase 的 Version 概念,到底是 Append 同一個 HFile,還是另外又產生其他的 HFile,得再做實際大量筆數的新增跟更新才有辦法觀察得到。

很可惜,我沒有跑過 YCSB 的 benchmark,所以不確定是否可以觀察得到 append 的現象。

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hbase 觀念釐清
文章發表於 : 2013-11-23, 22:19 
離線

註冊時間: 2011-11-11, 23:41
文章: 79
that is OK, Thanks anyway.


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 5 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 1 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作