Taiwan Hadoop Forum http://forum.hadoop.tw/ |
|
如何產生sort的輸入(巨量,skew..) http://forum.hadoop.tw/viewtopic.php?f=7&t=38297 |
第 1 頁 (共 1 頁) |
發表人: | tzsjr2036 [ 2015-12-03, 03:17 ] |
文章主題 : | 如何產生sort的輸入(巨量,skew..) |
各位先進好, 我是還在學習hadoop的新手 由於最近研究需要做實驗, 應用為TERASORT 想請問各位該如何產生夠龐大的Input呢? (5GB~20GB以上) 如果我又希望這些Input能具有"不同程度skew"的現象, 又該如何做? 這邊的"skew"包含兩種現象: [各種key間的數量不相同] 與 [在不同的block之中,同種key不均勻的分佈] 補充: 可能有點講不清楚 第一點意思是例如: 所有資料中共有100個key, 分為四種(a,b,c,d) skew輕則 a,b,c,d 四種key分別各有25個左右 skew重則也許a有80個, b有10個, c和d各有5個 第二點意思是例如: 整個Input被分割為10個block, 共包含100個"a"(key) skew輕則為每個block都剛好有10個"a", skew重則也許有一個block就包含了90個"a", 剩下9個block分別可能只包含0~2個"a" |
發表人: | jazz [ 2015-12-08, 22:42 ] |
文章主題 : | Re: 如何產生sort的輸入(巨量,skew..) |
tzsjr2036 寫: 各位先進好, 我是還在學習hadoop的新手 由於最近研究需要做實驗, 應用為TERASORT 想請問各位該如何產生夠龐大的Input呢? (5GB~20GB以上) 如果我又希望這些Input能具有"不同程度skew"的現象, 又該如何做? 這邊的"skew"包含兩種現象: [各種key間的數量不相同] 與 [在不同的block之中,同種key不均勻的分佈] 補充: 可能有點講不清楚 第一點意思是例如: 所有資料中共有100個key, 分為四種(a,b,c,d) skew輕則 a,b,c,d 四種key分別各有25個左右 skew重則也許a有80個, b有10個, c和d各有5個 第二點意思是例如: 整個Input被分割為10個block, 共包含100個"a"(key) skew輕則為每個block都剛好有10個"a", skew重則也許有一個block就包含了90個"a", 剩下9個block分別可能只包含0~2個"a" 要產生 TeraSort 的資料,可以用 TeraGen 可是因為您需要的是產生有 Key skew 現象的資料, 目前我個人沒有這方面的知識(也許某些論文裡會有吧) 只能建議從研究 TeraSort 的 java 檔開始著手,或者找一下有沒有相關參考文獻了。 - Jazz |
發表人: | Sherry [ 2016-12-24, 23:59 ] |
文章主題 : | Re: 如何產生sort的輸入(巨量,skew..) |
你好!我现在正在做这方面的实验,能否向你请教一下你最后是怎么生成这样的数据的?谢谢啦 |
第 1 頁 (共 1 頁) | 所有顯示的時間為 UTC + 8 小時 |
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group http://www.phpbb.com/ |