Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2018-10-20, 10:57

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 3 篇文章 ] 
發表人 內容
 文章主題 : 如何產生sort的輸入(巨量,skew..)
文章發表於 : 2015-12-03, 03:17 
離線

註冊時間: 2015-01-23, 01:12
文章: 1
各位先進好, 我是還在學習hadoop的新手

由於最近研究需要做實驗, 應用為TERASORT
想請問各位該如何產生夠龐大的Input呢? (5GB~20GB以上)



如果我又希望這些Input能具有"不同程度skew"的現象, 又該如何做?

這邊的"skew"包含兩種現象:
[各種key間的數量不相同] 與
[在不同的block之中,同種key不均勻的分佈]


補充: 可能有點講不清楚
第一點意思是例如:
所有資料中共有100個key, 分為四種(a,b,c,d)
skew輕則 a,b,c,d 四種key分別各有25個左右
skew重則也許a有80個, b有10個, c和d各有5個

第二點意思是例如:
整個Input被分割為10個block, 共包含100個"a"(key)
skew輕則為每個block都剛好有10個"a",
skew重則也許有一個block就包含了90個"a",
剩下9個block分別可能只包含0~2個"a"


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 如何產生sort的輸入(巨量,skew..)
文章發表於 : 2015-12-08, 22:42 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
tzsjr2036 寫:
各位先進好, 我是還在學習hadoop的新手
由於最近研究需要做實驗, 應用為TERASORT
想請問各位該如何產生夠龐大的Input呢? (5GB~20GB以上)
如果我又希望這些Input能具有"不同程度skew"的現象, 又該如何做?
這邊的"skew"包含兩種現象:
[各種key間的數量不相同] 與
[在不同的block之中,同種key不均勻的分佈]
補充: 可能有點講不清楚
第一點意思是例如:
所有資料中共有100個key, 分為四種(a,b,c,d)
skew輕則 a,b,c,d 四種key分別各有25個左右
skew重則也許a有80個, b有10個, c和d各有5個

第二點意思是例如:
整個Input被分割為10個block, 共包含100個"a"(key)
skew輕則為每個block都剛好有10個"a",
skew重則也許有一個block就包含了90個"a",
剩下9個block分別可能只包含0~2個"a"


要產生 TeraSort 的資料,可以用 TeraGen
可是因為您需要的是產生有 Key skew 現象的資料,
目前我個人沒有這方面的知識(也許某些論文裡會有吧)
只能建議從研究 TeraSort 的 java 檔開始著手,或者找一下有沒有相關參考文獻了。

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 如何產生sort的輸入(巨量,skew..)
文章發表於 : 2016-12-24, 23:59 
離線

註冊時間: 2016-12-18, 12:17
文章: 3
你好!我现在正在做这方面的实验,能否向你请教一下你最后是怎么生成这样的数据的?谢谢啦


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 3 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 1 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作