tzsjr2036 寫:
各位先進好, 我是還在學習hadoop的新手
由於最近研究需要做實驗, 應用為TERASORT
想請問各位該如何產生夠龐大的Input呢? (5GB~20GB以上)
如果我又希望這些Input能具有"不同程度skew"的現象, 又該如何做?
這邊的"skew"包含兩種現象:
[各種key間的數量不相同] 與
[在不同的block之中,同種key不均勻的分佈]
補充: 可能有點講不清楚
第一點意思是例如:
所有資料中共有100個key, 分為四種(a,b,c,d)
skew輕則 a,b,c,d 四種key分別各有25個左右
skew重則也許a有80個, b有10個, c和d各有5個
第二點意思是例如:
整個Input被分割為10個block, 共包含100個"a"(key)
skew輕則為每個block都剛好有10個"a",
skew重則也許有一個block就包含了90個"a",
剩下9個block分別可能只包含0~2個"a"
要產生 TeraSort 的資料,可以用 TeraGen
可是因為您需要的是產生有 Key skew 現象的資料,
目前我個人沒有這方面的知識(也許某些論文裡會有吧)
只能建議從研究 TeraSort 的 java 檔開始著手,或者找一下有沒有相關參考文獻了。
- Jazz