Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2022-08-09, 00:37

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 2 篇文章 ] 
發表人 內容
 文章主題 : 詢問hadoop cluster mapreduce task 分配問題
文章發表於 : 2014-07-03, 13:36 
離線

註冊時間: 2014-07-03, 13:23
文章: 2
hadoop版本 : 2.2.0 , 2-node : hadoop01(nn,dn) hadoop02(dn)
我在hadoop用mahout跑fpg演算法,去分析一個1.2g的資料,最後觀察他的map reduce case分配到各台node發現一些問題,當他跑第一步演算法counting algorithm,他的map task全部都集中在hadoop01這台,第二步fp-growth algorithm的map task全部集中在第二台,想請問他是什麼原因沒有將task分散給兩台分別處理呢?

我有另外再架3-node : hadoop01(nn,dn) hadoop02(dn) hadoop03(dn)
它第一步演算法counting algorithm的情況是有分別分配到hadoop01,02
第二步fp-growth則是分配到hadoop02,03

想請問我上方敘述的分配狀況是正常的嗎? 如果是不正常的那請問該如何調才能讓task正常分配到各台,希望有人幫我解惑!

以下是我mapred-site.xml,yarn-site.xml文件基本配置:

mapred-site.xml:
代碼:
<property>
      <name>mapred.tasktracker.map.tasks.maximum</name>
      <value>1</value>
</property>
<property>
      <name>mapred.tasktracker.reduce.tasks.maximum</name>
      <value>1</value>
</property>      
   
   
<property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
   <description>Set MapReduce that job can submit to ResourceManager</description>
</property>

<property> 
   <name>mapreduce.map.memory.mb</name> 
   <value>2048</value> 
</property> 
   
<property> 
   <name>mapreduce.map.java.opts</name> 
   <value>-Xmx1638M</value> 
</property> 
   
<property> 
   <name>mapreduce.reduce.memory.mb</name> 
   <value>4096</value> 
</property> 
   
<property> 
   <name>mapreduce.reduce.java.opts</name> 
   <value>-Xmx3276M</value> 
</property>


yarn-site.xml:
代碼:
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
      <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
   <property>
      <name>yarn.resourcemanager.address</name>
      <value>hadoop01:8032</value>
   </property>         
    <property>
      <name>yarn.resourcemanager.scheduler.address</name>
      <value>hadoop01:8030</value>
    </property>

    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>hadoop01:8031</value>
    </property>

    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>hadoop01:8033</value>
    </property>
    <property>
      <name>yarn.resourcemanager.webapp.address</name>
      <value>hadoop01:8088</value>
    </property>


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 詢問hadoop cluster mapreduce task 分配問題
文章發表於 : 2014-12-08, 00:13 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
john1992aax 寫:
hadoop版本 : 2.2.0 , 2-node : hadoop01(nn,dn) hadoop02(dn)
我在hadoop用mahout跑fpg演算法,去分析一個1.2g的資料,最後觀察他的map reduce case分配到各台node發現一些問題,當他跑第一步演算法counting algorithm,他的map task全部都集中在hadoop01這台,第二步fp-growth algorithm的map task全部集中在第二台,想請問他是什麼原因沒有將task分散給兩台分別處理呢?

我有另外再架3-node : hadoop01(nn,dn) hadoop02(dn) hadoop03(dn)
它第一步演算法counting algorithm的情況是有分別分配到hadoop01,02
第二步fp-growth則是分配到hadoop02,03

想請問我上方敘述的分配狀況是正常的嗎? 如果是不正常的那請問該如何調才能讓task正常分配到各台,希望有人幫我解惑!


對 YARN 不是很熟,不過 YARN 是 Resource Manager,所以行為會跟單跑 JobTracker 不同。
hadoop 2.2 版不知道能否不跑 YARN,只跑 MRv1 (JobTracker + TaskTracker)
或許您可以試一下在 Hadoop 1.0.4 版本,用 MRv1 跑跑看。

- Jazz


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 2 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 1 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作