Taiwan Hadoop Forum http://forum.hadoop.tw/ |
|
開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 http://forum.hadoop.tw/viewtopic.php?f=7&t=38328 |
第 1 頁 (共 2 頁) |
發表人: | felix0221 [ 2016-06-23, 18:55 ] |
文章主題 : | 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 |
最近在跑資料的時候遇到了一些問題 在這邊先付上軟體資訊 https://github.com/jgurtowski/jnomics/w ... th-bowtie2 我的Hadoop是0.20.203板的 用ESXI模擬出一台MASTER兩台SLAVE 記憶體三台都為16G,實體主機記憶體為128G 我遇到的問題是跑Hadoop遇到大多有四種狀況 1.卡在map0% reduce0%,網頁也沒有job 2.卡在map100% reduce100%,沒反應,網頁有Jobs,但也是100%沒反應。 3.卡在map100% reduce100%,網頁有Jobs,最後進入Failed Jobs。 4.Failed Jobs一次,之後成功,然後大概可以跑2個檔案之後又掛掉進入2或3的狀態。 現在測試到這邊,發現的問題如下: 只要開始跑map0% reduce0%的時候,其中一台SLAVE的SSH會自動斷掉 然後再次上去Jps會發現DataNode與TaskTracker都已經掛掉 最後可能都卡在上述123,三種狀況 當23結束後,再跑一次就有機率可以達到4的狀況 對於Hadoop還不是太熟悉,研究中,只是一直不能解決這些問題,想請各位幫幫忙。 如果需要任何資料我都可以提供,拜託各位了 |
發表人: | jazz [ 2016-06-24, 21:40 ] |
文章主題 : | Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 |
哇,還在用 0.20 版本,這有點舊囉。 根據描述,很難判斷造成 SSH 斷線的原因。 建議貼一些命令列執行的結果,像是: 代碼: cat /etc/hosts hostname ifconfig 初步懷疑 IP 有衝突。 - Jazz felix0221 寫: 最近在跑資料的時候遇到了一些問題
在這邊先付上軟體資訊 https://github.com/jgurtowski/jnomics/wiki/Align-reads-with-bowtie2 我的Hadoop是0.20.203板的 用ESXI模擬出一台MASTER兩台SLAVE 記憶體三台都為16G,實體主機記憶體為128G 我遇到的問題是跑Hadoop遇到大多有四種狀況 1.卡在map0% reduce0%,網頁也沒有job 2.卡在map100% reduce100%,沒反應,網頁有Jobs,但也是100%沒反應。 3.卡在map100% reduce100%,網頁有Jobs,最後進入Failed Jobs。 4.Failed Jobs一次,之後成功,然後大概可以跑2個檔案之後又掛掉進入2或3的狀態。 現在測試到這邊,發現的問題如下: 只要開始跑map0% reduce0%的時候,其中一台SLAVE的SSH會自動斷掉 然後再次上去Jps會發現DataNode與TaskTracker都已經掛掉 最後可能都卡在上述123,三種狀況 當23結束後,再跑一次就有機率可以達到4的狀況 對於Hadoop還不是太熟悉,研究中,只是一直不能解決這些問題,想請各位幫幫忙。 如果需要任何資料我都可以提供,拜託各位了 |
發表人: | felix0221 [ 2016-06-26, 00:53 ] |
文章主題 : | Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 |
會用0.2版本是因為軟體說他最新DEBUG到0.2版本,我怕新版本不支持。 先付上Log位置https://pan.baidu.com/s/1slciTtz 這是放在百度雲上的。 底下是cat /etc/hosts Master 代碼: Last login: Thu Jun 23 22:24:34 2016 from 10.1.1.173 hadoop@master:~$ cat /etc/hosts 127.0.0.1 localhost 10.1.1.118 master 10.1.1.189 slave-1 10.1.1.150 slave-2 # The following lines are desirable for IPv6 capable hosts ::1 localhost ip6-localhost ip6-loopback ff02::1 ip6-allnodes ff02::2 ip6-allrouters Slave1 代碼: hadoop@slave-1:~$ cat /etc/hosts 127.0.0.1 localhost 10.1.1.118 master 10.1.1.189 slave-1 10.1.1.150 slave-2 # The following lines are desirable for IPv6 capable hosts ::1 localhost ip6-localhost ip6-loopback ff02::1 ip6-allnodes ff02::2 ip6-allrouters Slave2 代碼: hadoop@slave-2:~/.ssh$ cat /etc/hosts 127.0.0.1 localhost 10.1.1.118 master 10.1.1.189 slave-1 10.1.1.150 slave-2 # The following lines are desirable for IPv6 capable hosts ::1 localhost ip6-localhost ip6-loopback ff02::1 ip6-allnodes ff02::2 ip6-allrouters 底下是hostname結果 Msater 代碼: hadoop@master:~$ hostname master Slave1 代碼: hadoop@slave-1:~$ hostname slave-1 Slave2 代碼: hadoop@slave-2:~/.ssh$ hostname slave-2 底下是ifconfig結果 Msater 代碼: hadoop@master:~$ ifconfig ens32 Link encap:Ethernet HWaddr 00:0c:29:cc:a1:21 inet addr:10.1.1.118 Bcast:10.1.1.255 Mask:255.255.255.0 inet6 addr: fe80::20c:29ff:fecc:a121/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:563564 errors:0 dropped:0 overruns:0 frame:0 TX packets:625 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:55602297 (55.6 MB) TX bytes:54478 (54.4 KB) lo Link encap:Local Loopback inet addr:127.0.0.1 Mask:255.0.0.0 inet6 addr: ::1/128 Scope:Host UP LOOPBACK RUNNING MTU:65536 Metric:1 RX packets:160 errors:0 dropped:0 overruns:0 frame:0 TX packets:160 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1 RX bytes:11840 (11.8 KB) TX bytes:11840 (11.8 KB) Slave1 代碼: hadoop@slave-1:~$ ifconfig ens32 Link encap:Ethernet HWaddr 00:0c:29:2d:67:93 inet addr:10.1.1.189 Bcast:10.1.1.255 Mask:255.255.255.0 inet6 addr: fe80::20c:29ff:fe2d:6793/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:563982 errors:0 dropped:0 overruns:0 frame:0 TX packets:1146 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:56359464 (56.3 MB) TX bytes:105407 (105.4 KB) lo Link encap:Local Loopback inet addr:127.0.0.1 Mask:255.0.0.0 inet6 addr: ::1/128 Scope:Host UP LOOPBACK RUNNING MTU:65536 Metric:1 RX packets:160 errors:0 dropped:0 overruns:0 frame:0 TX packets:160 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1 RX bytes:11840 (11.8 KB) TX bytes:11840 (11.8 KB) Slave2 代碼: hadoop@slave-2:~/.ssh$ ifconfig ens32 Link encap:Ethernet HWaddr 00:0c:29:b3:cc:bd inet addr:10.1.1.150 Bcast:10.1.1.255 Mask:255.255.255.0 inet6 addr: fe80::20c:29ff:feb3:ccbd/64 Scope:Link UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1 RX packets:563624 errors:0 dropped:0 overruns:0 frame:0 TX packets:773 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1000 RX bytes:55626046 (55.6 MB) TX bytes:110012 (110.0 KB) lo Link encap:Local Loopback inet addr:127.0.0.1 Mask:255.0.0.0 inet6 addr: ::1/128 Scope:Host UP LOOPBACK RUNNING MTU:65536 Metric:1 RX packets:160 errors:0 dropped:0 overruns:0 frame:0 TX packets:160 errors:0 dropped:0 overruns:0 carrier:0 collisions:0 txqueuelen:1 RX bytes:11840 (11.8 KB) TX bytes:11840 (11.8 KB) 麻煩大大了 實在無法裡解為什麼一執行 DataNode與TaskTracker還有ssh感覺是同時斷掉 但有時候又可以成功 |
發表人: | jazz [ 2016-06-27, 11:13 ] |
文章主題 : | Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 |
felix0221 寫: 會用0.2版本是因為軟體說他最新DEBUG到0.2版本,我怕新版本不支持。 先付上Log位置https://pan.baidu.com/s/1slciTtz 這是放在百度雲上的。 麻煩大大了 實在無法裡解為什麼一執行 DataNode與TaskTracker還有ssh感覺是同時斷掉 但有時候又可以成功 網路設定初步看起來是正常的。Log 已無法取得,建議放 https://gist.github.com/ - Jazz |
發表人: | felix0221 [ 2016-06-27, 14:32 ] |
文章主題 : | Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 |
jazz 寫: felix0221 寫: 會用0.2版本是因為軟體說他最新DEBUG到0.2版本,我怕新版本不支持。 先付上Log位置https://pan.baidu.com/s/1slciTtz 這是放在百度雲上的。 麻煩大大了 實在無法裡解為什麼一執行 DataNode與TaskTracker還有ssh感覺是同時斷掉 但有時候又可以成功 網路設定初步看起來是正常的。Log 已無法取得,建議放 https://gist.github.com/ - Jazz https://github.com/felix0221/H_log 這邊...麻煩您了 |
發表人: | jazz [ 2016-06-28, 22:57 ] |
文章主題 : | Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 |
felix0221 寫: https://github.com/felix0221/H_log 這邊...麻煩您了 根據 NameNode 與 JobTracker 的 Log 指出,有好幾次失敗都是因為 NameNode 處於 Safe Mode (安全模式) 因此 JobTracker 無法刪除 /tmp/hadoop-hadoop/mapred/system 而無法正常啟動。 代碼: ~$ grep -i "leaving safe mode" hadoop-hadoop-namenode-master.log.txt 2016-06-23 00:12:43,717 INFO org.apache.hadoop.hdfs.StateChange: STATE* Leaving safe mode after 37 secs. 2016-06-23 00:23:27,740 INFO org.apache.hadoop.hdfs.StateChange: STATE* Leaving safe mode after 29 secs. 2016-06-23 00:27:47,071 INFO org.apache.hadoop.hdfs.StateChange: STATE* Leaving safe mode after 41 secs. 根據 Log 內容數據指出,至少要 29~41 秒才會離開 Safe Mode。 因此恰巧與您所說的 20 秒內斷線相吻合。 請在執行 Job 之前,確認 (A) HDFS 已經確實離開 Safe Mode ( http://IP:50070 可以看到此一資訊) (B) JobTracker 已正常處於 RUNNING 階段(http://IP:50030 可看到此一資訊) - Jazz |
發表人: | felix0221 [ 2016-06-28, 23:12 ] |
文章主題 : | Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 |
jazz 寫: felix0221 寫: https://github.com/felix0221/H_log 這邊...麻煩您了 根據 NameNode 與 JobTracker 的 Log 指出,有好幾次失敗都是因為 NameNode 處於 Safe Mode (安全模式) 因此 JobTracker 無法刪除 /tmp/hadoop-hadoop/mapred/system 而無法正常啟動。 代碼: ~$ grep -i "leaving safe mode" hadoop-hadoop-namenode-master.log.txt 2016-06-23 00:12:43,717 INFO org.apache.hadoop.hdfs.StateChange: STATE* Leaving safe mode after 37 secs. 2016-06-23 00:23:27,740 INFO org.apache.hadoop.hdfs.StateChange: STATE* Leaving safe mode after 29 secs. 2016-06-23 00:27:47,071 INFO org.apache.hadoop.hdfs.StateChange: STATE* Leaving safe mode after 41 secs. 根據 Log 內容數據指出,至少要 29~41 秒才會離開 Safe Mode。 因此恰巧與您所說的 20 秒內斷線相吻合。 請在執行 Job 之前,確認 (A) HDFS 已經確實離開 Safe Mode ( http://IP:50070 可以看到此一資訊) (B) JobTracker 已正常處於 RUNNING 階段(http://IP:50030 可看到此一資訊) - Jazz 這我知道,後來就都有確定,有時候太急了。 但新的發現,是強制登出。 我跑下去直接被強制登出了。 不管是SSH還是主機上,都直接強制登出我的LINUX的該帳號。 |
發表人: | jazz [ 2016-06-28, 23:14 ] |
文章主題 : | Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 |
felix0221 寫: https://github.com/felix0221/H_log 這邊...麻煩您了 其次,從 NameNode Log 看起來,有兩千多個 Block 無法正常副本。 代碼: 2016-06-23 03:27:07,916 WARN org.apache.hadoop.hdfs.server.namenode.FSNamesystem: PendingReplicationMonitor timed out block blk_-2876171265259357771_1661 ~$ grep PendingReplicationMonitor hadoop-hadoop-namenode-master.log.txt | wc 2445 22005 379134 特別是 10.1.1.150 這台一直被踢掉。 代碼: ~$ grep "a node" hadoop-hadoop-namenode-master.log.txt 2016-06-23 00:13:44,538 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.118:50010 2016-06-23 00:42:08,200 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010 2016-06-23 01:21:56,565 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010 2016-06-23 01:22:57,524 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010 2016-06-23 01:43:40,928 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010 2016-06-23 01:45:29,470 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010 2016-06-23 01:46:03,927 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010 2016-06-23 01:48:18,583 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010 2016-06-23 01:56:42,417 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010 2016-06-23 02:12:08,530 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010 2016-06-23 02:43:48,998 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010 2016-06-23 02:57:08,740 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010 2016-06-23 03:02:55,860 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010 2016-06-23 03:17:08,902 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010 2016-06-23 03:18:40,296 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010 2016-06-23 03:32:09,223 INFO org.apache.hadoop.net.NetworkTopology: Removing a node: /default-rack/10.1.1.150:50010 - Jazz |
發表人: | jazz [ 2016-06-28, 23:31 ] |
文章主題 : | Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 |
felix0221 寫: https://github.com/felix0221/H_log 這邊...麻煩您了 感覺 slave-2 的 DataNode 超不穩的。 代碼: ~$ grep ERR hadoop-hadoop-datanode-slave-2.log.txt 2016-06-23 01:22:57,570 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 01:22:57,660 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 01:22:58,099 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 01:46:04,123 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 01:46:04,131 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 01:46:04,522 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 01:56:42,471 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 01:56:42,499 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 01:56:43,202 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 03:18:41,230 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 03:18:41,303 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 而且從 DataNode 的 DS-XXX-YYY-50010-ZZZ 看起來,每台 VM 有兩個 IP,一個是 private IP,一個是 public IP. 代碼: ~$ grep "node registration" hadoop-hadoop-namenode-master.log.txt | awk '{ print $10","$12 }' | sort -n | uniq -c 5 10.1.1.118:50010,DS-2036442461-120.97.32.115-50010-1465748226065 13 10.1.1.150:50010,DS-1471367236-120.97.32.113-50010-1464657472281 3 10.1.1.189:50010,DS-1061459805-120.97.32.114-50010-1464657472333 - Jazz |
發表人: | felix0221 [ 2016-06-28, 23:42 ] |
文章主題 : | Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 |
jazz 寫: felix0221 寫: https://github.com/felix0221/H_log 這邊...麻煩您了 感覺 slave-2 的 DataNode 超不穩的。 代碼: ~$ grep ERR hadoop-hadoop-datanode-slave-2.log.txt 2016-06-23 01:22:57,570 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 01:22:57,660 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 01:22:58,099 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 01:46:04,123 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 01:46:04,131 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 01:46:04,522 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 01:56:42,471 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 01:56:42,499 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 01:56:43,202 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 03:18:41,230 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 2016-06-23 03:18:41,303 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(10.1.1.150:50010, storageID=DS-1471367236-120.97.32.113-50010-1464657472281, infoPort=50075, ipcPort=50020):DataXceiver 而且從 DataNode 的 DS-XXX-YYY-50010-ZZZ 看起來,每台 VM 有兩個 IP,一個是 private IP,一個是 public IP. 代碼: ~$ grep "node registration" hadoop-hadoop-namenode-master.log.txt | awk '{ print $10","$12 }' | sort -n | uniq -c 5 10.1.1.118:50010,DS-2036442461-120.97.32.115-50010-1465748226065 13 10.1.1.150:50010,DS-1471367236-120.97.32.113-50010-1464657472281 3 10.1.1.189:50010,DS-1061459805-120.97.32.114-50010-1464657472333 - Jazz 其實不是有兩個IP,是有位朋友說要幫我看看,我將IP改為外網。 原本是外網的IP,後來因為擔心防火牆改為內網。 後來又因為朋友要幫忙看改為外網。 所以造成了大大看到的情況。 有這個狀況是代表我在Hadoop的架設有問題嗎? 然後,是發現當發生這個狀況的時候,slave會整台登出。 是包含我在主機上的登入以及SSH的部份。 我查閱了syslog,結果如下。 代碼: Jun 28 23:08:31 slave-2 sudo: pam_ecryptfs: pam_sm_authenticate: /home/hadoop is already mounted Jun 28 23:17:01 slave-2 CRON[11957]: (root) CMD ( cd / && run-parts --report /etc/cron.hourly) Jun 28 23:23:35 slave-2 systemd[11666]: Stopped target Default. Jun 28 23:23:35 slave-2 systemd[11666]: Stopped target Basic System. Jun 28 23:23:35 slave-2 systemd[11666]: Stopped target Sockets. Jun 28 23:23:35 slave-2 systemd[11666]: Stopped target Paths. Jun 28 23:23:35 slave-2 systemd[11666]: Reached target Shutdown. Jun 28 23:23:35 slave-2 systemd[11666]: Starting Exit the Session... Jun 28 23:23:35 slave-2 systemd[11666]: Stopped target Timers. Jun 28 23:23:35 slave-2 systemd[11666]: Received SIGRTMIN+24 from PID 12034 (kill). Jun 28 23:23:35 slave-2 systemd[1]: getty@tty1.service: Service has no hold-off time, scheduling restart. Jun 28 23:23:35 slave-2 systemd[1]: Stopped Getty on tty1. Jun 28 23:23:35 slave-2 systemd[1]: Started Getty on tty1. Jun 28 23:23:36 slave-2 systemd[1]: Stopped User Manager for UID 1000. Jun 28 23:23:36 slave-2 systemd[1]: Removed slice User Slice of hadoop. Jun 28 23:23:48 slave-2 systemd[1]: Created slice User Slice of hadoop. Jun 28 23:23:48 slave-2 systemd[1]: Starting User Manager for UID 1000... Jun 28 23:23:48 slave-2 systemd[1]: Started Session 32 of user hadoop. Jun 28 23:23:48 slave-2 systemd[12062]: Signature not found in user keyring Jun 28 23:23:48 slave-2 systemd[12062]: Perhaps try the interactive 'ecryptfs-mount-private' Jun 28 23:23:48 slave-2 systemd[12062]: Reached target Paths. Jun 28 23:23:48 slave-2 systemd[12062]: Reached target Timers. Jun 28 23:23:48 slave-2 systemd[12062]: Reached target Sockets. Jun 28 23:23:48 slave-2 systemd[12062]: Reached target Basic System. Jun 28 23:23:48 slave-2 systemd[12062]: Reached target Default. Jun 28 23:23:48 slave-2 systemd[12062]: Startup finished in 20ms. Jun 28 23:23:48 slave-2 systemd[1]: Started User Manager for UID 1000. Jun 28 23:23:54 slave-2 sudo: pam_ecryptfs: pam_sm_authenticate: /home/hadoop is already mounted 是在23:22~之後發生的 |
第 1 頁 (共 2 頁) | 所有顯示的時間為 UTC + 8 小時 |
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group http://www.phpbb.com/ |