Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2022-06-29, 03:03

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 7 篇文章 ] 
發表人 內容
 文章主題 : hadoop運行時間
文章發表於 : 2013-11-19, 11:15 
離線

註冊時間: 2013-08-08, 11:35
文章: 13
各位大大好,
小弟最近在看學長的論文
他是使用hadoop去執行apriori演算法
hadoop產出來的明細在時間部分只有整體所消耗的時間
我想知道他在每個環節所消耗的時間該怎麼看(例如 map->reduce 每個環節所花費的時間)


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hadoop運行時間
文章發表於 : 2013-11-19, 15:23 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
csh10301989 寫:
各位大大好,
小弟最近在看學長的論文
他是使用hadoop去執行apriori演算法
hadoop產出來的明細在時間部分只有整體所消耗的時間
我想知道他在每個環節所消耗的時間該怎麼看(例如 map->reduce 每個環節所花費的時間)


當然您可以一個一個從 http://JobTracker:50030 去查該 Job 的 mapper 與 reducer task attempt 各自花多少時間。

附加檔案:
JobTracker.png
JobTracker.png [ 64.43 KiB | 被瀏覽 6223 次 ]


在每個 Job 的輸出目錄,都會有一個 _logs/history 的目錄,裏面會有詳細的資料。

代碼:
$ hadoop fs -lsr output
-rw-r--r--   1 jazz supergroup          0 2013-11-12 17:12 /user/jazz/output/_SUCCESS
drwxr-xr-x   - jazz supergroup          0 2013-11-12 17:12 /user/jazz/output/_logs
drwxr-xr-x   - jazz supergroup          0 2013-11-12 17:12 /user/jazz/output/_logs/history
-rw-r--r--   1 jazz supergroup      13333 2013-11-12 17:12 /user/jazz/output/_logs/history/job_201311121710_0002_1384247524180_jazz_word+count
-rw-r--r--   1 jazz supergroup      20433 2013-11-12 17:12 /user/jazz/output/_logs/history/job_201311121710_0002_conf.xml
-rw-r--r--   1 jazz supergroup         20 2013-11-12 17:12 /user/jazz/output/part-r-00000

引言回覆:
$ hadoop fs -cat /user/jazz/output/_logs/history/job_201311121710_0002_1384247524180_jazz_word+count
Meta VERSION="1" .
Job JOBID="job_201311121710_0002" JOBNAME="word count" USER="jazz" SUBMIT_TIME="1384247524180" JOBCONF="hdfs://localhost:9000/home/jazz/hadoop/var/hadoop-jazz/mapred/staging/jazz/\.staging/job_201311121710_0002/job\.xml" VIEW_JOB="*" MODIFY_JOB="*" JOB_QUEUE="default" .
Job JOBID="job_201311121710_0002" JOB_PRIORITY="NORMAL" .
Job JOBID="job_201311121710_0002" LAUNCH_TIME="1384247524316" TOTAL_MAPS="1" TOTAL_REDUCES="1" JOB_STATUS="PREP" .
Task TASKID="task_201311121710_0002_m_000002" TASK_TYPE="SETUP" START_TIME="1384247526248" SPLITS="" .
MapAttempt TASK_TYPE="SETUP" TASKID="task_201311121710_0002_m_000002" TASK_ATTEMPT_ID="attempt_201311121710_0002_m_000002_0" START_TIME="1384247526385" TRACKER_NAME="tracker_vmm:localhost/127\.0\.0\.1:44450" HTTP_PORT="50060" .
MapAttempt TASK_TYPE="SETUP" TASKID="task_201311121710_0002_m_000002" TASK_ATTEMPT_ID="attempt_201311121710_0002_m_000002_0" TASK_STATUS="SUCCESS" FINISH_TIME="1384247530341" HOSTNAME="/default-rack/vmm" STATE_STRING="setup" COUNTERS="{(FileSystemCounters)(FileSystemCounters)[(FILE_BYTES_WRITTEN)(FILE_BYTES_WRITTEN)(21685)]}{(org\.apache\.hadoop\.mapred\.Task$Counter)(Map-Reduce Framework)[(PHYSICAL_MEMORY_BYTES)(Physical memory \\(bytes\\) snapshot)(96485376)][(SPILLED_RECORDS)(Spilled Records)(0)][(CPU_MILLISECONDS)(CPU time spent \\(ms\\))(100)][(COMMITTED_HEAP_BYTES)(Total committed heap usage \\(bytes\\))(200998912)][(VIRTUAL_MEMORY_BYTES)(Virtual memory \\(bytes\\) snapshot)(536580096)]}" .


以前有個專案叫作 hadoop timeline 可以畫出 MapReduce 不同階段的圖
http://www.ohloh.net/p/hadoop-timelines
結果類似:
圖檔
執行方法參考:http://cs.smith.edu/dftwiki/index.php/Hadoop_Tutorial_1.1_--_Generating_Task_Timelines

不過年久失修,不確定還能不能用。

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hadoop運行時間
文章發表於 : 2013-11-19, 22:18 
離線

註冊時間: 2013-08-08, 11:35
文章: 13
謝謝J大的說明
我再研究看看 謝謝!


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hadoop運行時間
文章發表於 : 2013-12-05, 15:45 
離線

註冊時間: 2013-08-08, 11:35
文章: 13
J大您好, 我看學長的excel表有一些數據不太清楚
我問過學長他說
問題1..
"
第一列的30Sec ---- > 是總共運行的時間
但是我查了一下hadoop 技術手冊第三版上面所說的
第12列 SLOTS_MILLIS_MAPS 指的是 MAP階段所花的時間 (毫秒)
第18列 SLOTS_MILLIS_REDUCES 指的是 REDUCE階段所花的時間 (毫秒)
那這樣的話.....MAP(25秒) + REDUCE(9秒) = 34秒 遠大於所說的總共運行時間 (34秒)
我已經混亂了...
"
問題2..
"
第4列和第5列的MAPREDUCE時間代表甚麼意思呢?...
我看他所花的時間高達42min..但是找了書和上網查都沒有收穫...
"


附加檔案:
13.jpg
13.jpg [ 130.25 KiB | 被瀏覽 6061 次 ]
回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hadoop運行時間
文章發表於 : 2013-12-06, 00:38 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
csh10301989 寫:
J大您好, 我看學長的excel表有一些數據不太清楚
我問過學長他說
問題1..
"
第一列的30Sec ---- > 是總共運行的時間
但是我查了一下hadoop 技術手冊第三版上面所說的
第12列 SLOTS_MILLIS_MAPS 指的是 MAP階段所花的時間 (毫秒)
第18列 SLOTS_MILLIS_REDUCES 指的是 REDUCE階段所花的時間 (毫秒)
那這樣的話.....MAP(25秒) + REDUCE(9秒) = 34秒 遠大於所說的總共運行時間 (34秒)
我已經混亂了...
"
問題2..
"
第4列和第5列的MAPREDUCE時間代表甚麼意思呢?...
我看他所花的時間高達42min..但是找了書和上網查都沒有收穫...
"


習慣上我都是看第 4 列跟第 5 列的時間耶。
所以我覺得很古怪,為何第1列顯示 30 Sec 但 Mapper 明明就跑了 42 Min. 不太合理。
最好是有原始輸出的 history 內容會比較正確。

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hadoop運行時間
文章發表於 : 2013-12-06, 09:55 
離線

註冊時間: 2013-08-08, 11:35
文章: 13
所以說j大知道 4 5 列代表甚麼意思嗎XDD
都找不到相關的資訊....

至於秒數搭不攏的問題,
我在請教一下學長好了....呵呵~"~


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: hadoop運行時間
文章發表於 : 2013-12-06, 14:45 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
csh10301989 寫:
所以說j大知道 4 5 列代表甚麼意思嗎XDD
都找不到相關的資訊....

至於秒數搭不攏的問題,
我在請教一下學長好了....呵呵~"~


Setup - 代表 MapReduce 初始化所需的時間
Map - 代表從第一個 mapper 啟動到最後一個 mapper 執行完成的時間長度
Reduce - 代表從第一個 reduce 啟動到最後一個 reducer 執行完成的時間長度

- Jazz


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 7 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 1 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作