Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2022-06-29, 02:08

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 3 篇文章 ] 
發表人 內容
 文章主題 : 請問query HBase的資料時,資料會從讀取HFile開始經過哪些程序?
文章發表於 : 2014-03-23, 17:53 
離線

註冊時間: 2014-03-23, 17:29
文章: 2
最近才開始研究Hadoop
目前實驗的架構是 Virtual machines(VMWare) + HDFS(2.0) + HBase(0.96) + Toad for Cloud Database
會問這個問題是因為從 Toad for Cloud Database 下 SQL 指令 query 大概40萬筆資料(指令包含join)
跑了至少5分鐘,顯然是個尷尬的數字

所以想要了解一下 HBase 在讀資料時會有哪些I/O的瓶頸,流程上資料什麼時候會進入記憶體,又什麼時候會經由網路傳輸。
我在 HBase 的官方文件只找的到抽象的Architecture的概念,查不太到資料I/O的流向
請了解的人不吝給一個研究的方向,當然有各種提升performance的方法也很好
但我主要想了解一下背後的運作機制
謝謝~


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請問query HBase的資料時,資料會從讀取HFile開始經過哪些程序?
文章發表於 : 2014-03-28, 23:33 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
yglin 寫:
最近才開始研究Hadoop
目前實驗的架構是 Virtual machines(VMWare) + HDFS(2.0) + HBase(0.96) + Toad for Cloud Database
會問這個問題是因為從 Toad for Cloud Database 下 SQL 指令 query 大概40萬筆資料(指令包含join)
跑了至少5分鐘,顯然是個尷尬的數字

所以想要了解一下 HBase 在讀資料時會有哪些I/O的瓶頸,流程上資料什麼時候會進入記憶體,又什麼時候會經由網路傳輸。
我在 HBase 的官方文件只找的到抽象的Architecture的概念,查不太到資料I/O的流向
請了解的人不吝給一個研究的方向,當然有各種提升performance的方法也很好
但我主要想了解一下背後的運作機制
謝謝~


這個問題確實有點難回覆,就我所知,多數 HBase 的效能問題都跟 Key 的選擇有關。
而且因為您跑在 VM 中,是否會受其他虛擬機器影響 I/O,也是一個變數。
您想找的資料可能要問 HBase 社群的人,看看是否有高手願意分享了 :)
習慣上比較建議先用一些 java profiler 的工具(Ex. jprofiler)來查。

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 請問query HBase的資料時,資料會從讀取HFile開始經過哪些程序?
文章發表於 : 2014-04-01, 11:13 
離線

註冊時間: 2014-03-23, 17:29
文章: 2
好,非常感謝版主,你已經給了我幾個方向了
謝謝囉~


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 3 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 1 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作