gmozomg 寫:
考慮計算資料量大小和初始化job的因素之下,這兩種運作方式的差異曲線不知道會如何呢?
想請問要查這類paper的關鍵字要用什麼找比較好呢?
或者是hadoop官網是否有提到相關的東西?
---
另外還有一個問題map/reduce出來的資料如果要繼續沿用繼續map/reduce的話
是不是一定要開始新的job來接資料? 還是有其他的用法?
抱歉,還在找資料中就來這邊問了這個基本的問題,
涉hadoop未深@@
可以找 Hadoop Performance Benchmark
Ex.
[1] Berkeley 的 X-Trace - Monitoring Hadoop through Tracing
http://radlab.cs.berkeley.edu/wiki/Proj ... _on_HadoopPoster PDF
http://www.cs.berkeley.edu/~matei/hadoo ... poster.pdf[2] Monitoring Hadoop Using X-Trace | Yahoo! Research (影片)
http://research.yahoo.com/node/2119http://research.yahoo.com/files/andy_ko ... hadoop.pdf關於接續不同 MapReduce 的問題,比較接近 Workflow 管理,
有人會用 Shell Script 來串,高級一點可以用 Cascading 或 Oozie 處理。
個人比較偏好用 Pig 解決這些流程串接的問題,至於該用哪一種,沒有定論。
自由軟體的好處就是隨需要選擇合用的兵器囉
http://www.cascading.orghttp://yahoo.github.com/oozie/http://pig.apache.org/- Jazz