Taiwan Hadoop Forum
http://forum.hadoop.tw/

如何產生sort的輸入(巨量,skew..)
http://forum.hadoop.tw/viewtopic.php?f=7&t=38297
1 頁 (共 1 頁)

發表人:  tzsjr2036 [ 2015-12-03, 03:17 ]
文章主題 :  如何產生sort的輸入(巨量,skew..)

各位先進好, 我是還在學習hadoop的新手

由於最近研究需要做實驗, 應用為TERASORT
想請問各位該如何產生夠龐大的Input呢? (5GB~20GB以上)



如果我又希望這些Input能具有"不同程度skew"的現象, 又該如何做?

這邊的"skew"包含兩種現象:
[各種key間的數量不相同] 與
[在不同的block之中,同種key不均勻的分佈]


補充: 可能有點講不清楚
第一點意思是例如:
所有資料中共有100個key, 分為四種(a,b,c,d)
skew輕則 a,b,c,d 四種key分別各有25個左右
skew重則也許a有80個, b有10個, c和d各有5個

第二點意思是例如:
整個Input被分割為10個block, 共包含100個"a"(key)
skew輕則為每個block都剛好有10個"a",
skew重則也許有一個block就包含了90個"a",
剩下9個block分別可能只包含0~2個"a"

發表人:  jazz [ 2015-12-08, 22:42 ]
文章主題 :  Re: 如何產生sort的輸入(巨量,skew..)

tzsjr2036 寫:
各位先進好, 我是還在學習hadoop的新手
由於最近研究需要做實驗, 應用為TERASORT
想請問各位該如何產生夠龐大的Input呢? (5GB~20GB以上)
如果我又希望這些Input能具有"不同程度skew"的現象, 又該如何做?
這邊的"skew"包含兩種現象:
[各種key間的數量不相同] 與
[在不同的block之中,同種key不均勻的分佈]
補充: 可能有點講不清楚
第一點意思是例如:
所有資料中共有100個key, 分為四種(a,b,c,d)
skew輕則 a,b,c,d 四種key分別各有25個左右
skew重則也許a有80個, b有10個, c和d各有5個

第二點意思是例如:
整個Input被分割為10個block, 共包含100個"a"(key)
skew輕則為每個block都剛好有10個"a",
skew重則也許有一個block就包含了90個"a",
剩下9個block分別可能只包含0~2個"a"


要產生 TeraSort 的資料,可以用 TeraGen
可是因為您需要的是產生有 Key skew 現象的資料,
目前我個人沒有這方面的知識(也許某些論文裡會有吧)
只能建議從研究 TeraSort 的 java 檔開始著手,或者找一下有沒有相關參考文獻了。

- Jazz

發表人:  Sherry [ 2016-12-24, 23:59 ]
文章主題 :  Re: 如何產生sort的輸入(巨量,skew..)

你好!我现在正在做这方面的实验,能否向你请教一下你最后是怎么生成这样的数据的?谢谢啦

1 頁 (共 1 頁) 所有顯示的時間為 UTC + 8 小時
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
http://www.phpbb.com/