Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2022-06-27, 04:14

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 1 篇文章 ] 
發表人 內容
 文章主題 : Re: 請問依序執行和用thread執行Mapreduce的速度
文章發表於 : 2011-01-19, 23:19 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
gmozomg 寫:
考慮計算資料量大小和初始化job的因素之下,這兩種運作方式的差異曲線不知道會如何呢?
想請問要查這類paper的關鍵字要用什麼找比較好呢?
或者是hadoop官網是否有提到相關的東西?
---
另外還有一個問題map/reduce出來的資料如果要繼續沿用繼續map/reduce的話
是不是一定要開始新的job來接資料? 還是有其他的用法?
抱歉,還在找資料中就來這邊問了這個基本的問題,
涉hadoop未深@@


可以找 Hadoop Performance Benchmark
Ex.
[1] Berkeley 的 X-Trace - Monitoring Hadoop through Tracing
http://radlab.cs.berkeley.edu/wiki/Proj ... _on_Hadoop
Poster PDF
http://www.cs.berkeley.edu/~matei/hadoo ... poster.pdf

[2] Monitoring Hadoop Using X-Trace | Yahoo! Research (影片)
http://research.yahoo.com/node/2119
http://research.yahoo.com/files/andy_ko ... hadoop.pdf

關於接續不同 MapReduce 的問題,比較接近 Workflow 管理,
有人會用 Shell Script 來串,高級一點可以用 Cascading 或 Oozie 處理。
個人比較偏好用 Pig 解決這些流程串接的問題,至於該用哪一種,沒有定論。
自由軟體的好處就是隨需要選擇合用的兵器囉 :P

http://www.cascading.org
http://yahoo.github.com/oozie/
http://pig.apache.org/

- Jazz


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 1 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 6 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作