Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2018-11-20, 02:06

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 17 篇文章 ]  前往頁數 12  下一頁
發表人 內容
 文章主題 : 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉
文章發表於 : 2016-06-23, 18:55 
離線

註冊時間: 2015-05-16, 20:14
文章: 10
最近在跑資料的時候遇到了一些問題

在這邊先付上軟體資訊
https://github.com/jgurtowski/jnomics/w ... th-bowtie2

我的Hadoop是0.20.203板的
用ESXI模擬出一台MASTER兩台SLAVE
記憶體三台都為16G,實體主機記憶體為128G

我遇到的問題是跑Hadoop遇到大多有四種狀況
1.卡在map0% reduce0%,網頁也沒有job
2.卡在map100% reduce100%,沒反應,網頁有Jobs,但也是100%沒反應。
3.卡在map100% reduce100%,網頁有Jobs,最後進入Failed Jobs。
4.Failed Jobs一次,之後成功,然後大概可以跑2個檔案之後又掛掉進入2或3的狀態。

現在測試到這邊,發現的問題如下:
只要開始跑map0% reduce0%的時候,其中一台SLAVE的SSH會自動斷掉
然後再次上去Jps會發現DataNode與TaskTracker都已經掛掉
最後可能都卡在上述123,三種狀況
當23結束後,再跑一次就有機率可以達到4的狀況

對於Hadoop還不是太熟悉,研究中,只是一直不能解決這些問題,想請各位幫幫忙。
如果需要任何資料我都可以提供,拜託各位了


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉
文章發表於 : 2016-06-24, 21:40 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
哇,還在用 0.20 版本,這有點舊囉。

根據描述,很難判斷造成 SSH 斷線的原因。
建議貼一些命令列執行的結果,像是:
代碼:
cat /etc/hosts
hostname
ifconfig


初步懷疑 IP 有衝突。

- Jazz

felix0221 寫:
最近在跑資料的時候遇到了一些問題

在這邊先付上軟體資訊
https://github.com/jgurtowski/jnomics/wiki/Align-reads-with-bowtie2

我的Hadoop是0.20.203板的
用ESXI模擬出一台MASTER兩台SLAVE
記憶體三台都為16G,實體主機記憶體為128G

我遇到的問題是跑Hadoop遇到大多有四種狀況
1.卡在map0% reduce0%,網頁也沒有job
2.卡在map100% reduce100%,沒反應,網頁有Jobs,但也是100%沒反應。
3.卡在map100% reduce100%,網頁有Jobs,最後進入Failed Jobs。
4.Failed Jobs一次,之後成功,然後大概可以跑2個檔案之後又掛掉進入2或3的狀態。

現在測試到這邊,發現的問題如下:
只要開始跑map0% reduce0%的時候,其中一台SLAVE的SSH會自動斷掉
然後再次上去Jps會發現DataNode與TaskTracker都已經掛掉
最後可能都卡在上述123,三種狀況
當23結束後,再跑一次就有機率可以達到4的狀況

對於Hadoop還不是太熟悉,研究中,只是一直不能解決這些問題,想請各位幫幫忙。
如果需要任何資料我都可以提供,拜託各位了


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉
文章發表於 : 2016-06-26, 00:53 
離線

註冊時間: 2015-05-16, 20:14
文章: 10
會用0.2版本是因為軟體說他最新DEBUG到0.2版本,我怕新版本不支持。

先付上Log位置https://pan.baidu.com/s/1slciTtz
這是放在百度雲上的。

底下是cat /etc/hosts

Master
代碼:
Last login: Thu Jun 23 22:24:34 2016 from 10.1.1.173
hadoop@master:~$ cat /etc/hosts
127.0.0.1       localhost
10.1.1.118      master
10.1.1.189      slave-1
10.1.1.150      slave-2


# The following lines are desirable for IPv6 capable hosts
::1     localhost ip6-localhost ip6-loopback
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters


Slave1
代碼:
hadoop@slave-1:~$ cat /etc/hosts
127.0.0.1       localhost
10.1.1.118      master
10.1.1.189      slave-1
10.1.1.150      slave-2


# The following lines are desirable for IPv6 capable hosts
::1     localhost ip6-localhost ip6-loopback
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters


Slave2
代碼:
hadoop@slave-2:~/.ssh$ cat /etc/hosts
127.0.0.1       localhost
10.1.1.118      master
10.1.1.189      slave-1
10.1.1.150      slave-2


# The following lines are desirable for IPv6 capable hosts
::1     localhost ip6-localhost ip6-loopback
ff02::1 ip6-allnodes
ff02::2 ip6-allrouters



底下是hostname結果
Msater
代碼:
hadoop@master:~$ hostname
master

Slave1
代碼:
hadoop@slave-1:~$ hostname
slave-1

Slave2
代碼:
hadoop@slave-2:~/.ssh$ hostname
slave-2


底下是ifconfig結果
Msater
代碼:
hadoop@master:~$ ifconfig
ens32     Link encap:Ethernet  HWaddr 00:0c:29:cc:a1:21
          inet addr:10.1.1.118  Bcast:10.1.1.255  Mask:255.255.255.0
          inet6 addr: fe80::20c:29ff:fecc:a121/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:563564 errors:0 dropped:0 overruns:0 frame:0
          TX packets:625 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:55602297 (55.6 MB)  TX bytes:54478 (54.4 KB)

lo        Link encap:Local Loopback
          inet addr:127.0.0.1  Mask:255.0.0.0
          inet6 addr: ::1/128 Scope:Host
          UP LOOPBACK RUNNING  MTU:65536  Metric:1
          RX packets:160 errors:0 dropped:0 overruns:0 frame:0
          TX packets:160 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1
          RX bytes:11840 (11.8 KB)  TX bytes:11840 (11.8 KB)

Slave1
代碼:
hadoop@slave-1:~$ ifconfig
ens32     Link encap:Ethernet  HWaddr 00:0c:29:2d:67:93
          inet addr:10.1.1.189  Bcast:10.1.1.255  Mask:255.255.255.0
          inet6 addr: fe80::20c:29ff:fe2d:6793/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:563982 errors:0 dropped:0 overruns:0 frame:0
          TX packets:1146 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:56359464 (56.3 MB)  TX bytes:105407 (105.4 KB)

lo        Link encap:Local Loopback
          inet addr:127.0.0.1  Mask:255.0.0.0
          inet6 addr: ::1/128 Scope:Host
          UP LOOPBACK RUNNING  MTU:65536  Metric:1
          RX packets:160 errors:0 dropped:0 overruns:0 frame:0
          TX packets:160 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1
          RX bytes:11840 (11.8 KB)  TX bytes:11840 (11.8 KB)

Slave2
代碼:
hadoop@slave-2:~/.ssh$ ifconfig
ens32     Link encap:Ethernet  HWaddr 00:0c:29:b3:cc:bd
          inet addr:10.1.1.150  Bcast:10.1.1.255  Mask:255.255.255.0
          inet6 addr: fe80::20c:29ff:feb3:ccbd/64 Scope:Link
          UP BROADCAST RUNNING MULTICAST  MTU:1500  Metric:1
          RX packets:563624 errors:0 dropped:0 overruns:0 frame:0
          TX packets:773 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1000
          RX bytes:55626046 (55.6 MB)  TX bytes:110012 (110.0 KB)

lo        Link encap:Local Loopback
          inet addr:127.0.0.1  Mask:255.0.0.0
          inet6 addr: ::1/128 Scope:Host
          UP LOOPBACK RUNNING  MTU:65536  Metric:1
          RX packets:160 errors:0 dropped:0 overruns:0 frame:0
          TX packets:160 errors:0 dropped:0 overruns:0 carrier:0
          collisions:0 txqueuelen:1
          RX bytes:11840 (11.8 KB)  TX bytes:11840 (11.8 KB)


麻煩大大了
實在無法裡解為什麼一執行
DataNode與TaskTracker還有ssh感覺是同時斷掉
但有時候又可以成功


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉
文章發表於 : 2016-06-27, 11:13 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
felix0221 寫:
會用0.2版本是因為軟體說他最新DEBUG到0.2版本,我怕新版本不支持。

先付上Log位置https://pan.baidu.com/s/1slciTtz
這是放在百度雲上的。

麻煩大大了
實在無法裡解為什麼一執行
DataNode與TaskTracker還有ssh感覺是同時斷掉
但有時候又可以成功


網路設定初步看起來是正常的。Log 已無法取得,建議放 https://gist.github.com/

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉
文章發表於 : 2016-06-27, 14:32 
離線

註冊時間: 2015-05-16, 20:14
文章: 10
jazz 寫:
felix0221 寫:
會用0.2版本是因為軟體說他最新DEBUG到0.2版本,我怕新版本不支持。

先付上Log位置https://pan.baidu.com/s/1slciTtz
這是放在百度雲上的。

麻煩大大了
實在無法裡解為什麼一執行
DataNode與TaskTracker還有ssh感覺是同時斷掉
但有時候又可以成功


網路設定初步看起來是正常的。Log 已無法取得,建議放 https://gist.github.com/

- Jazz


https://github.com/felix0221/H_log

這邊...麻煩您了


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉
文章發表於 : 2016-06-28, 22:57 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
felix0221 寫:
https://github.com/felix0221/H_log
這邊...麻煩您了


根據 NameNode 與 JobTracker 的 Log 指出,有好幾次失敗都是因為 NameNode 處於 Safe Mode (安全模式)
因此 JobTracker 無法刪除 /tmp/hadoop-hadoop/mapred/system 而無法正常啟動。

代碼:
~$ grep -i "leaving safe mode" hadoop-hadoop-namenode-master.log.txt
2016-06-23 00:12:43,717 INFO org.apache.hadoop.hdfs.StateChange: STATE* Leaving safe mode after 37 secs.
2016-06-23 00:23:27,740 INFO org.apache.hadoop.hdfs.StateChange: STATE* Leaving safe mode after 29 secs.
2016-06-23 00:27:47,071 INFO org.apache.hadoop.hdfs.StateChange: STATE* Leaving safe mode after 41 secs.


根據 Log 內容數據指出,至少要 29~41 秒才會離開 Safe Mode。
因此恰巧與您所說的 20 秒內斷線相吻合。

請在執行 Job 之前,確認
(A) HDFS 已經確實離開 Safe Mode ( http://IP:50070 可以看到此一資訊)
(B) JobTracker 已正常處於 RUNNING 階段(http://IP:50030 可看到此一資訊)

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉
文章發表於 : 2016-06-28, 23:12 
離線

註冊時間: 2015-05-16, 20:14
文章: 10
jazz 寫:
felix0221 寫:
https://github.com/felix0221/H_log
這邊...麻煩您了


根據 NameNode 與 JobTracker 的 Log 指出,有好幾次失敗都是因為 NameNode 處於 Safe Mode (安全模式)
因此 JobTracker 無法刪除 /tmp/hadoop-hadoop/mapred/system 而無法正常啟動。

代碼:
~$ grep -i "leaving safe mode" hadoop-hadoop-namenode-master.log.txt
2016-06-23 00:12:43,717 INFO org.apache.hadoop.hdfs.StateChange: STATE* Leaving safe mode after 37 secs.
2016-06-23 00:23:27,740 INFO org.apache.hadoop.hdfs.StateChange: STATE* Leaving safe mode after 29 secs.
2016-06-23 00:27:47,071 INFO org.apache.hadoop.hdfs.StateChange: STATE* Leaving safe mode after 41 secs.


根據 Log 內容數據指出,至少要 29~41 秒才會離開 Safe Mode。
因此恰巧與您所說的 20 秒內斷線相吻合。

請在執行 Job 之前,確認
(A) HDFS 已經確實離開 Safe Mode ( http://IP:50070 可以看到此一資訊)
(B) JobTracker 已正常處於 RUNNING 階段(http://IP:50030 可看到此一資訊)

- Jazz


這我知道,後來就都有確定,有時候太急了。
但新的發現,是強制登出。
我跑下去直接被強制登出了。
不管是SSH還是主機上,都直接強制登出我的LINUX的該帳號。


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉
文章發表於 : 2016-06-28, 23:14 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
felix0221 寫:
https://github.com/felix0221/H_log
這邊...麻煩您了


其次,從 NameNode Log 看起來,有兩千多個 Block 無法正常副本。

代碼:
2016-06-23 03:27:07,916 WARN org.apache.hadoop.hdfs.server.namenode.FSNamesystem: PendingReplicationMonitor timed out block blk_-2876171265259357771_1661
~$ grep PendingReplicationMonitor hadoop-hadoop-namenode-master.log.txt | wc
   2445   22005  379134


特別是 10.1.1.150 這台一直被踢掉。

代碼:
~$ grep "a node" hadoop-hadoop-namenode-master.log.txt
2016-06-23 00:13:44,538 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.118:50010
2016-06-23 00:42:08,200 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010
2016-06-23 01:21:56,565 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010
2016-06-23 01:22:57,524 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010
2016-06-23 01:43:40,928 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010
2016-06-23 01:45:29,470 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010
2016-06-23 01:46:03,927 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010
2016-06-23 01:48:18,583 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010
2016-06-23 01:56:42,417 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010
2016-06-23 02:12:08,530 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010
2016-06-23 02:43:48,998 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010
2016-06-23 02:57:08,740 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010
2016-06-23 03:02:55,860 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010
2016-06-23 03:17:08,902 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010
2016-06-23 03:18:40,296 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010
2016-06-23 03:32:09,223 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010


- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉
文章發表於 : 2016-06-28, 23:31 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
felix0221 寫:
https://github.com/felix0221/H_log
這邊...麻煩您了


感覺 slave-2 的 DataNode 超不穩的。

代碼:
~$ grep ERR hadoop-hadoop-datanode-slave-2.log.txt
2016-06-23 01:22:57,570 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 01:22:57,660 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 01:22:58,099 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 01:46:04,123 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 01:46:04,131 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 01:46:04,522 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 01:56:42,471 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 01:56:42,499 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 01:56:43,202 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 03:18:41,230 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 03:18:41,303 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver


而且從 DataNode 的 DS-XXX-YYY-50010-ZZZ 看起來,每台 VM 有兩個 IP,一個是 private IP,一個是 public IP.

代碼:
~$ grep "node registration" hadoop-hadoop-namenode-master.log.txt | awk '{ print $10","$12 }' | sort -n | uniq -c
      5 10.1.1.118:50010,DS-2036442461-120.97.32.115-50010-1465748226065
     13 10.1.1.150:50010,DS-1471367236-120.97.32.113-50010-1464657472281
      3 10.1.1.189:50010,DS-1061459805-120.97.32.114-50010-1464657472333


- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉
文章發表於 : 2016-06-28, 23:42 
離線

註冊時間: 2015-05-16, 20:14
文章: 10
jazz 寫:
felix0221 寫:
https://github.com/felix0221/H_log
這邊...麻煩您了


感覺 slave-2 的 DataNode 超不穩的。

代碼:
~$ grep ERR hadoop-hadoop-datanode-slave-2.log.txt
2016-06-23 01:22:57,570 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 01:22:57,660 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 01:22:58,099 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 01:46:04,123 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 01:46:04,131 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 01:46:04,522 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 01:56:42,471 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 01:56:42,499 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 01:56:43,202 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 03:18:41,230 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver
2016-06-23 03:18:41,303 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver


而且從 DataNode 的 DS-XXX-YYY-50010-ZZZ 看起來,每台 VM 有兩個 IP,一個是 private IP,一個是 public IP.

代碼:
~$ grep "node registration" hadoop-hadoop-namenode-master.log.txt | awk '{ print $10","$12 }' | sort -n | uniq -c
      5 10.1.1.118:50010,DS-2036442461-120.97.32.115-50010-1465748226065
     13 10.1.1.150:50010,DS-1471367236-120.97.32.113-50010-1464657472281
      3 10.1.1.189:50010,DS-1061459805-120.97.32.114-50010-1464657472333


- Jazz


其實不是有兩個IP,是有位朋友說要幫我看看,我將IP改為外網。
原本是外網的IP,後來因為擔心防火牆改為內網。
後來又因為朋友要幫忙看改為外網。
所以造成了大大看到的情況。

有這個狀況是代表我在Hadoop的架設有問題嗎?

然後,是發現當發生這個狀況的時候,slave會整台登出。
是包含我在主機上的登入以及SSH的部份。
我查閱了syslog,結果如下。
代碼:
Jun 28 23:08:31 slave-2 sudo: pam_ecryptfs: pam_sm_authenticate: /home/hadoop is already mounted
Jun 28 23:17:01 slave-2 CRON[11957]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Jun 28 23:23:35 slave-2 systemd[11666]: Stopped target Default.
Jun 28 23:23:35 slave-2 systemd[11666]: Stopped target Basic System.
Jun 28 23:23:35 slave-2 systemd[11666]: Stopped target Sockets.
Jun 28 23:23:35 slave-2 systemd[11666]: Stopped target Paths.
Jun 28 23:23:35 slave-2 systemd[11666]: Reached target Shutdown.
Jun 28 23:23:35 slave-2 systemd[11666]: Starting Exit the Session...
Jun 28 23:23:35 slave-2 systemd[11666]: Stopped target Timers.
Jun 28 23:23:35 slave-2 systemd[11666]: Received SIGRTMIN+24 from PID 12034 (kill).
Jun 28 23:23:35 slave-2 systemd[1]: getty@tty1.service: Service has no hold-off time, scheduling restart.
Jun 28 23:23:35 slave-2 systemd[1]: Stopped Getty on tty1.
Jun 28 23:23:35 slave-2 systemd[1]: Started Getty on tty1.
Jun 28 23:23:36 slave-2 systemd[1]: Stopped User Manager for UID 1000.
Jun 28 23:23:36 slave-2 systemd[1]: Removed slice User Slice of hadoop.
Jun 28 23:23:48 slave-2 systemd[1]: Created slice User Slice of hadoop.
Jun 28 23:23:48 slave-2 systemd[1]: Starting User Manager for UID 1000...
Jun 28 23:23:48 slave-2 systemd[1]: Started Session 32 of user hadoop.
Jun 28 23:23:48 slave-2 systemd[12062]: Signature not found in user keyring
Jun 28 23:23:48 slave-2 systemd[12062]: Perhaps try the interactive 'ecryptfs-mount-private'
Jun 28 23:23:48 slave-2 systemd[12062]: Reached target Paths.
Jun 28 23:23:48 slave-2 systemd[12062]: Reached target Timers.
Jun 28 23:23:48 slave-2 systemd[12062]: Reached target Sockets.
Jun 28 23:23:48 slave-2 systemd[12062]: Reached target Basic System.
Jun 28 23:23:48 slave-2 systemd[12062]: Reached target Default.
Jun 28 23:23:48 slave-2 systemd[12062]: Startup finished in 20ms.
Jun 28 23:23:48 slave-2 systemd[1]: Started User Manager for UID 1000.
Jun 28 23:23:54 slave-2 sudo: pam_ecryptfs: pam_sm_authenticate: /home/hadoop is already mounted


是在23:22~之後發生的


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 17 篇文章 ]  前往頁數 12  下一頁

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 1 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作