Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2018-10-17, 11:51

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 17 篇文章 ]  前往頁數 上一頁  12
發表人 內容
 文章主題 : Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉
文章發表於 : 2016-06-29, 00:16 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
felix0221 寫:
這我知道,後來就都有確定,有時候太急了。
但新的發現,是強制登出。
我跑下去直接被強制登出了。
不管是SSH還是主機上,都直接強制登出我的LINUX的該帳號。


直接強制登出 Linux 帳號就已經不單純是 Hadoop 的問題了~
SSH 會被強制登出,通常是因為 Time Out (閒置太久)
即便 hadoop jar 指令的 STDOUT 被中止了,只要 Hadoop JobTracker 與 TaskTracker 有正常運作
Job 還是會正常跑完。

有時候我們會加掛 screen 指令來確保不會因為斷線而看不到執行過程。

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉
文章發表於 : 2016-06-29, 00:38 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
felix0221 寫:
然後,是發現當發生這個狀況的時候,slave會整台登出。
是包含我在主機上的登入以及SSH的部份。
我查閱了syslog,結果如下。
代碼:
Jun 28 23:23:35 slave-2 systemd[11666]: Received SIGRTMIN+24 from PID 12034 (kill).
Jun 28 23:23:35 slave-2 systemd[1]: getty@tty1.service: Service has no hold-off time, scheduling restart.
Jun 28 23:23:35 slave-2 systemd[1]: Stopped Getty on tty1.
Jun 28 23:23:35 slave-2 systemd[1]: Started Getty on tty1.
Jun 28 23:23:36 slave-2 systemd[1]: Stopped User Manager for UID 1000.
Jun 28 23:23:36 slave-2 systemd[1]: Removed slice User Slice of hadoop.
Jun 28 23:23:48 slave-2 systemd[1]: Created slice User Slice of hadoop.
Jun 28 23:23:48 slave-2 systemd[1]: Starting User Manager for UID 1000...
Jun 28 23:23:48 slave-2 systemd[1]: Started Session 32 of user hadoop.

是在23:22~之後發生的


感覺是這個 BUG
https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=807041
https://bbs.archlinux.org/viewtopic.php?pid=1564288#p1564288

要更新 systemd

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉
文章發表於 : 2016-06-30, 10:29 
離線

註冊時間: 2015-05-16, 20:14
文章: 10
jazz 寫:
felix0221 寫:
然後,是發現當發生這個狀況的時候,slave會整台登出。
是包含我在主機上的登入以及SSH的部份。
我查閱了syslog,結果如下。
代碼:
Jun 28 23:23:35 slave-2 systemd[11666]: Received SIGRTMIN+24 from PID 12034 (kill).
Jun 28 23:23:35 slave-2 systemd[1]: getty@tty1.service: Service has no hold-off time, scheduling restart.
Jun 28 23:23:35 slave-2 systemd[1]: Stopped Getty on tty1.
Jun 28 23:23:35 slave-2 systemd[1]: Started Getty on tty1.
Jun 28 23:23:36 slave-2 systemd[1]: Stopped User Manager for UID 1000.
Jun 28 23:23:36 slave-2 systemd[1]: Removed slice User Slice of hadoop.
Jun 28 23:23:48 slave-2 systemd[1]: Created slice User Slice of hadoop.
Jun 28 23:23:48 slave-2 systemd[1]: Starting User Manager for UID 1000...
Jun 28 23:23:48 slave-2 systemd[1]: Started Session 32 of user hadoop.

是在23:22~之後發生的


感覺是這個 BUG
https://bugs.debian.org/cgi-bin/bugreport.cgi?bug=807041
https://bbs.archlinux.org/viewtopic.php?pid=1564288#p1564288

要更新 systemd

- Jazz


我試著更新過,但結果一樣。
這個BUG是去年的,我使用的版本為Ubuntu16.04版本應該為新版說。
不過那個Log真的蠻像的。


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉
文章發表於 : 2016-06-30, 22:32 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
felix0221 寫:
我試著更新過,但結果一樣。
這個BUG是去年的,我使用的版本為Ubuntu16.04版本應該為新版說。
不過那個Log真的蠻像的。


我還沒在 16.04 上跑過 Hadoop,如果真的是 Systemd 在強制某些 process 終止
那還真的蠻可能會如您所描述,經常不成功。

得裝一台 16.04 試試看,若沒辦法重現,也很難找到解決方法。
初步會建議先用 14.04 (既然是用 VM 在做實驗的話,換作業系統應該會比較簡單些)

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉
文章發表於 : 2016-07-15, 15:17 
離線

註冊時間: 2015-05-16, 20:14
文章: 10
jazz 寫:
felix0221 寫:
我試著更新過,但結果一樣。
這個BUG是去年的,我使用的版本為Ubuntu16.04版本應該為新版說。
不過那個Log真的蠻像的。


我還沒在 16.04 上跑過 Hadoop,如果真的是 Systemd 在強制某些 process 終止
那還真的蠻可能會如您所描述,經常不成功。

得裝一台 16.04 試試看,若沒辦法重現,也很難找到解決方法。
初步會建議先用 14.04 (既然是用 VM 在做實驗的話,換作業系統應該會比較簡單些)

- Jazz


http://askubuntu.com/questions/784591/u ... emely-high

找到這個,不知道是不是跟Root有關?
有再考慮是否要換成centOs來實作


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉
文章發表於 : 2016-07-17, 23:05 
離線

註冊時間: 2009-11-09, 19:52
文章: 2897
felix0221 寫:
http://askubuntu.com/questions/784591/u ... emely-high
找到這個,不知道是不是跟Root有關?
有再考慮是否要換成centOs來實作


呵,CentOS 很早就導入 systemd 了,我還是維持原有的建議,先試試 Ubuntu 14.04 LTS(至少它不是用 systemd)。

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 開始跑後20秒內,其中一台SLAVE會SSH斷線,DataNode與TaskTracker掛掉
文章發表於 : 2016-08-04, 04:48 
離線

註冊時間: 2015-05-16, 20:14
文章: 10
更換成12.04與14.04目前沒有問題
謝謝大大


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 17 篇文章 ]  前往頁數 上一頁  12

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 2 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作