Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2022-06-30, 03:14

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 4 篇文章 ] 
發表人 內容
 文章主題 : 安安,有些問題想請教
文章發表於 : 2014-12-01, 12:14 
離線

註冊時間: 2014-06-22, 01:33
文章: 7
不好意思,想請教一些問題


最近在做頻寬大小,對Hadoop效能影響的實驗
Hadoop version:2.4.1
測試程式:Terasort
File Size:1G
實驗結果如下
圖檔
http://ppt.cc/0fuQ

做完發現同頻寬的情況下,執行時間大約會落在兩個位置。
如:12.5M的話,執行時間會在420以及770附近,我從jobhistory來看,時間都是增加在shuffle time。

想請教...執行時間為何剛好是落在這兩個數字附近呢,還有shuffle那邊發生了什麼事?


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 安安,有些問題想請教
文章發表於 : 2014-12-08, 00:17 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
saiwayneliao 寫:
不好意思,想請教一些問題
最近在做頻寬大小,對Hadoop效能影響的實驗
Hadoop version:2.4.1
測試程式:Terasort
File Size:1G
實驗結果如下
圖檔
http://ppt.cc/0fuQ
做完發現同頻寬的情況下,執行時間大約會落在兩個位置。
如:12.5M的話,執行時間會在420以及770附近,我從jobhistory來看,時間都是增加在shuffle time。
想請教...執行時間為何剛好是落在這兩個數字附近呢,還有shuffle那邊發生了什麼事?


嗯,數字為何落在那兩個數字附近,可能需要更多系統資訊。
不過 Shuffle 主要是將同一個 Key 的 Value 放到同一個 reducer
所以會受頻寬的影響。

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 安安,有些問題想請教
文章發表於 : 2014-12-08, 11:48 
離線

註冊時間: 2014-06-22, 01:33
文章: 7
謝謝 Jazz大的回覆

如果我想追蹤造成效能差異的原因,應該從哪下手呢?

我的環境是用vm架起來的

一台master
三台datanode

每台vm的資源分配:
CPU:2core
Memory:4Gb
HD:40GB

參數配置是參照下面這篇教學文
http://dblab.xmu.edu.cn/blog/powerxing/install-hadoop-cluster-2-4-1/

想找原因該從哪下手呢?@@""


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 安安,有些問題想請教
文章發表於 : 2014-12-10, 12:50 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
saiwayneliao 寫:
謝謝 Jazz大的回覆
如果我想追蹤造成效能差異的原因,應該從哪下手呢?
我的環境是用vm架起來的
想找原因該從哪下手呢?@@""


首先,因為是用 VM 架起來的,所以效能差異會受虛擬化影響甚巨,不可不慎。

其次,因為不太確定您跑的測試參數,以及限制頻寬的作法。
「效能差異」有時是一體兩面,真正要先探討的是「相同測試資料,相同測試參數(Mapper 個數、Reducer 個數),不同頻寬限制」
如果"頻寬(MBps)"乘上"時間(sec)"等於"流量(MB)",請先確定測試數據成出來的流量差異,不能只單看時間。

- Jazz


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 4 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 1 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作