Taiwan Hadoop Forum http://forum.hadoop.tw/ |
|
開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 http://forum.hadoop.tw/viewtopic.php?f=7&t=38328 |
第 2 頁 (共 2 頁) |
發表人: | jazz [ 2016-06-29, 00:16 ] |
文章主題 : | Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 |
felix0221 寫: 這我知道,後來就都有確定,有時候太急了。 但新的發現,是強制登出。 我跑下去直接被強制登出了。 不管是SSH還是主機上,都直接強制登出我的LINUX的該帳號。 直接強制登出 Linux 帳號就已經不單純是 Hadoop 的問題了~ SSH 會被強制登出,通常是因為 Time Out (閒置太久) 即便 hadoop jar 指令的 STDOUT 被中止了,只要 Hadoop JobTracker 與 TaskTracker 有正常運作 Job 還是會正常跑完。 有時候我們會加掛 screen 指令來確保不會因為斷線而看不到執行過程。 - Jazz |
發表人: | jazz [ 2016-06-29, 00:38 ] |
文章主題 : | Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 |
felix0221 寫: 然後,是發現當發生這個狀況的時候,slave會整台登出。 是包含我在主機上的登入以及SSH的部份。 我查閱了syslog,結果如下。 代碼: Jun 28 23:23:35 slave-2 systemd[11666]: Received SIGRTMIN+24 from PID 12034 (kill). Jun 28 23:23:35 slave-2 systemd[1]: getty@tty1.service: Service has no hold-off time, scheduling restart. Jun 28 23:23:35 slave-2 systemd[1]: Stopped Getty on tty1. Jun 28 23:23:35 slave-2 systemd[1]: Started Getty on tty1. Jun 28 23:23:36 slave-2 systemd[1]: Stopped User Manager for UID 1000. Jun 28 23:23:36 slave-2 systemd[1]: Removed slice User Slice of hadoop. Jun 28 23:23:48 slave-2 systemd[1]: Created slice User Slice of hadoop. Jun 28 23:23:48 slave-2 systemd[1]: Starting User Manager for UID 1000... Jun 28 23:23:48 slave-2 systemd[1]: Started Session 32 of user hadoop. 是在23:22~之後發生的 感覺是這個 BUG https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=807041 https://bbs.archlinux.org/viewtopic.php?pid=1564288#p1564288 要更新 systemd - Jazz |
發表人: | felix0221 [ 2016-06-30, 10:29 ] |
文章主題 : | Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 |
jazz 寫: felix0221 寫: 然後,是發現當發生這個狀況的時候,slave會整台登出。 是包含我在主機上的登入以及SSH的部份。 我查閱了syslog,結果如下。 代碼: Jun 28 23:23:35 slave-2 systemd[11666]: Received SIGRTMIN+24 from PID 12034 (kill). Jun 28 23:23:35 slave-2 systemd[1]: getty@tty1.service: Service has no hold-off time, scheduling restart. Jun 28 23:23:35 slave-2 systemd[1]: Stopped Getty on tty1. Jun 28 23:23:35 slave-2 systemd[1]: Started Getty on tty1. Jun 28 23:23:36 slave-2 systemd[1]: Stopped User Manager for UID 1000. Jun 28 23:23:36 slave-2 systemd[1]: Removed slice User Slice of hadoop. Jun 28 23:23:48 slave-2 systemd[1]: Created slice User Slice of hadoop. Jun 28 23:23:48 slave-2 systemd[1]: Starting User Manager for UID 1000... Jun 28 23:23:48 slave-2 systemd[1]: Started Session 32 of user hadoop. 是在23:22~之後發生的 感覺是這個 BUG https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=807041 https://bbs.archlinux.org/viewtopic.php?pid=1564288#p1564288 要更新 systemd - Jazz 我試著更新過,但結果一樣。 這個BUG是去年的,我使用的版本為Ubuntu16.04版本應該為新版說。 不過那個Log真的蠻像的。 |
發表人: | jazz [ 2016-06-30, 22:32 ] |
文章主題 : | Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 |
felix0221 寫: 我試著更新過,但結果一樣。 這個BUG是去年的,我使用的版本為Ubuntu16.04版本應該為新版說。 不過那個Log真的蠻像的。 我還沒在 16.04 上跑過 Hadoop,如果真的是 Systemd 在強制某些 process 終止 那還真的蠻可能會如您所描述,經常不成功。 得裝一台 16.04 試試看,若沒辦法重現,也很難找到解決方法。 初步會建議先用 14.04 (既然是用 VM 在做實驗的話,換作業系統應該會比較簡單些) - Jazz |
發表人: | felix0221 [ 2016-07-15, 15:17 ] |
文章主題 : | Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 |
jazz 寫: felix0221 寫: 我試著更新過,但結果一樣。 這個BUG是去年的,我使用的版本為Ubuntu16.04版本應該為新版說。 不過那個Log真的蠻像的。 我還沒在 16.04 上跑過 Hadoop,如果真的是 Systemd 在強制某些 process 終止 那還真的蠻可能會如您所描述,經常不成功。 得裝一台 16.04 試試看,若沒辦法重現,也很難找到解決方法。 初步會建議先用 14.04 (既然是用 VM 在做實驗的話,換作業系統應該會比較簡單些) - Jazz http://askubuntu.com/questions/784591/u ... emely-high 找到這個,不知道是不是跟Root有關? 有再考慮是否要換成centOs來實作 |
發表人: | jazz [ 2016-07-17, 23:05 ] |
文章主題 : | Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 |
felix0221 寫: 呵,CentOS 很早就導入 systemd 了,我還是維持原有的建議,先試試 Ubuntu 14.04 LTS(至少它不是用 systemd)。 - Jazz |
發表人: | felix0221 [ 2016-08-04, 04:48 ] |
文章主題 : | Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉 |
更換成12.04與14.04目前沒有問題 謝謝大大 |
第 2 頁 (共 2 頁) | 所有顯示的時間為 UTC + 8 小時 |
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group http://www.phpbb.com/ |