Taiwan Hadoop Forum

台灣 Hadoop 技術討論區
現在的時間是 2017-09-26, 19:00

所有顯示的時間為 UTC + 8 小時




發表新文章 回覆主題  [ 9 篇文章 ] 
發表人 內容
 文章主題 : 執行特定example時,服務會被關閉
文章發表於 : 2016-09-23, 18:02 
離線

註冊時間: 2016-09-23, 17:49
文章: 5
Hi all,

我是在arm (cavium) 平台上面跑 hadoop-2.7.1
OS: ubuntu 16.04
kernel: 4.4.0-generic
java ver: 1.8.0_101

在執行 TestDFSIO 時,還沒跑完服務就被關閉並退出
例如: $ hadoop jar hadoop-*test*.jar TestDFSIO -write -nrFiles 10 -fileSize 1000

我查log 看起來像是java引起的問題?
所有log如附檔。

感謝~~


附加檔案:
hadoop_fail_log.zip [53.15 KiB]
被下載 287 次
回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 執行特定example時,服務會被關閉
文章發表於 : 2016-10-02, 18:01 
離線

註冊時間: 2009-11-09, 19:52
文章: 2894
好幾個 ERROR 都是跟接收到 SIGTERM signal 有關。
一般來說 SIGTERM 是被作業系統 kill 掉

如果實驗環境還沒關掉,請提供 dmesg 的結果。初步懷疑記憶體不足,所以被 Linux Kernel 視為使用太大量的 process 而強制 kill 掉。

問題:ARM 平台的記憶體大小 - 由於預設的 HEAPSIZE 是 1GB,所以如果沒有調整,整個 Hadoop 跑起來又跑 YARN Job 的話,會要求 4~8GB 的記憶體。相信除非您是用 ARM Server,否則不會有這樣的記憶體大小。

- Jazz

代碼:
hadoop-hduser-datanode-arm1604.log:2016-09-23 16:00:24,854 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: RECEIVED SIGNAL 15: SIGTERM
hadoop-hduser-namenode-arm1604.log:2016-09-23 16:00:24,853 ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: RECEIVED SIGNAL 15: SIGTERM
hadoop-hduser-secondarynamenode-arm1604.log:2016-09-23 16:00:24,853 ERROR org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: RECEIVED SIGNAL 15: SIGTERM
yarn-hduser-nodemanager-arm1604.log:2016-09-23 16:00:24,853 ERROR org.apache.hadoop.yarn.server.nodemanager.NodeManager: RECEIVED SIGNAL 15: SIGTERM
yarn-hduser-nodemanager-arm1604.log:2016-09-23 16:00:25,002 ERROR org.apache.hadoop.yarn.server.nodemanager.NodeManager: RECEIVED SIGNAL 15: SIGTERM
yarn-hduser-resourcemanager-arm1604.log:2016-09-23 16:00:24,853 ERROR org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: RECEIVED SIGNAL 15: SIGTERM
yarn-hduser-resourcemanager-arm1604.log:2016-09-23 16:00:24,873 ERROR org.apache.hadoop.security.token.delegation.AbstractDelegationTokenSecretManager: ExpiredTokenRemover received java.lang.InterruptedException: sleep interrupted
yarn-hduser-resourcemanager-arm1604.log:2016-09-23 16:00:25,004 ERROR org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: RECEIVED SIGNAL 15: SIGTERM
yarn-hduser-resourcemanager-arm1604.log:2016-09-23 16:00:25,042 ERROR org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: Returning, interrupted : java.lang.InterruptedException
yarn-hduser-resourcemanager-arm1604.log:2016-09-23 16:00:25,046 ERROR org.apache.hadoop.security.token.delegation.AbstractDelegationTokenSecretManager: ExpiredTokenRemover received java.lang.InterruptedException: sleep interrupted

shiyeh 寫:
Hi all,

我是在arm (cavium) 平台上面跑 hadoop-2.7.1
OS: ubuntu 16.04
kernel: 4.4.0-generic
java ver: 1.8.0_101

在執行 TestDFSIO 時,還沒跑完服務就被關閉並退出
例如: $ hadoop jar hadoop-*test*.jar TestDFSIO -write -nrFiles 10 -fileSize 1000

我查log 看起來像是java引起的問題?
所有log如附檔。

感謝~~


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 執行特定example時,服務會被關閉
文章發表於 : 2016-10-02, 19:10 
離線

註冊時間: 2016-09-23, 17:49
文章: 5
Hi Jazz,

感謝回覆!

我手邊現在沒有環境,等下次拿到環境,再把狀況複製出來,並檢查dmesg,再回報這裡。

另外,我是使用arm server,記憶體應該是有 16G*8 沒錯。

jazz 寫:
好幾個 ERROR 都是跟接收到 SIGTERM signal 有關。
一般來說 SIGTERM 是被作業系統 kill 掉

如果實驗環境還沒關掉,請提供 dmesg 的結果。初步懷疑記憶體不足,所以被 Linux Kernel 視為使用太大量的 process 而強制 kill 掉。

問題:ARM 平台的記憶體大小 - 由於預設的 HEAPSIZE 是 1GB,所以如果沒有調整,整個 Hadoop 跑起來又跑 YARN Job 的話,會要求 4~8GB 的記憶體。相信除非您是用 ARM Server,否則不會有這樣的記憶體大小。

- Jazz

代碼:
hadoop-hduser-datanode-arm1604.log:2016-09-23 16:00:24,854 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: RECEIVED SIGNAL 15: SIGTERM
hadoop-hduser-namenode-arm1604.log:2016-09-23 16:00:24,853 ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: RECEIVED SIGNAL 15: SIGTERM
hadoop-hduser-secondarynamenode-arm1604.log:2016-09-23 16:00:24,853 ERROR org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: RECEIVED SIGNAL 15: SIGTERM
yarn-hduser-nodemanager-arm1604.log:2016-09-23 16:00:24,853 ERROR org.apache.hadoop.yarn.server.nodemanager.NodeManager: RECEIVED SIGNAL 15: SIGTERM
yarn-hduser-nodemanager-arm1604.log:2016-09-23 16:00:25,002 ERROR org.apache.hadoop.yarn.server.nodemanager.NodeManager: RECEIVED SIGNAL 15: SIGTERM
yarn-hduser-resourcemanager-arm1604.log:2016-09-23 16:00:24,853 ERROR org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: RECEIVED SIGNAL 15: SIGTERM
yarn-hduser-resourcemanager-arm1604.log:2016-09-23 16:00:24,873 ERROR org.apache.hadoop.security.token.delegation.AbstractDelegationTokenSecretManager: ExpiredTokenRemover received java.lang.InterruptedException: sleep interrupted
yarn-hduser-resourcemanager-arm1604.log:2016-09-23 16:00:25,004 ERROR org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: RECEIVED SIGNAL 15: SIGTERM
yarn-hduser-resourcemanager-arm1604.log:2016-09-23 16:00:25,042 ERROR org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: Returning, interrupted : java.lang.InterruptedException
yarn-hduser-resourcemanager-arm1604.log:2016-09-23 16:00:25,046 ERROR org.apache.hadoop.security.token.delegation.AbstractDelegationTokenSecretManager: ExpiredTokenRemover received java.lang.InterruptedException: sleep interrupted

shiyeh 寫:
Hi all,

我是在arm (cavium) 平台上面跑 hadoop-2.7.1
OS: ubuntu 16.04
kernel: 4.4.0-generic
java ver: 1.8.0_101

在執行 TestDFSIO 時,還沒跑完服務就被關閉並退出
例如: $ hadoop jar hadoop-*test*.jar TestDFSIO -write -nrFiles 10 -fileSize 1000

我查log 看起來像是java引起的問題?
所有log如附檔。

感謝~~


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 執行特定example時,服務會被關閉
文章發表於 : 2016-10-11, 16:22 
離線

註冊時間: 2016-09-23, 17:49
文章: 5
Hi Jazz,

我今天拿到機器了。
並複製出現像的同時的dmesg,如附檔dmesg.log

另外,之前有拿intel xeon的機器來測,同樣也是ubuntu 16.04 + hadoop-2.7.1,也會有這個現象
看起來應該跟是不是ARM平台無關。

shiyeh 寫:
Hi Jazz,

感謝回覆!

我手邊現在沒有環境,等下次拿到環境,再把狀況複製出來,並檢查dmesg,再回報這裡。

另外,我是使用arm server,記憶體應該是有 16G*8 沒錯。

jazz 寫:
好幾個 ERROR 都是跟接收到 SIGTERM signal 有關。
一般來說 SIGTERM 是被作業系統 kill 掉

如果實驗環境還沒關掉,請提供 dmesg 的結果。初步懷疑記憶體不足,所以被 Linux Kernel 視為使用太大量的 process 而強制 kill 掉。

問題:ARM 平台的記憶體大小 - 由於預設的 HEAPSIZE 是 1GB,所以如果沒有調整,整個 Hadoop 跑起來又跑 YARN Job 的話,會要求 4~8GB 的記憶體。相信除非您是用 ARM Server,否則不會有這樣的記憶體大小。

- Jazz

代碼:
hadoop-hduser-datanode-arm1604.log:2016-09-23 16:00:24,854 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: RECEIVED SIGNAL 15: SIGTERM
hadoop-hduser-namenode-arm1604.log:2016-09-23 16:00:24,853 ERROR org.apache.hadoop.hdfs.server.namenode.NameNode: RECEIVED SIGNAL 15: SIGTERM
hadoop-hduser-secondarynamenode-arm1604.log:2016-09-23 16:00:24,853 ERROR org.apache.hadoop.hdfs.server.namenode.SecondaryNameNode: RECEIVED SIGNAL 15: SIGTERM
yarn-hduser-nodemanager-arm1604.log:2016-09-23 16:00:24,853 ERROR org.apache.hadoop.yarn.server.nodemanager.NodeManager: RECEIVED SIGNAL 15: SIGTERM
yarn-hduser-nodemanager-arm1604.log:2016-09-23 16:00:25,002 ERROR org.apache.hadoop.yarn.server.nodemanager.NodeManager: RECEIVED SIGNAL 15: SIGTERM
yarn-hduser-resourcemanager-arm1604.log:2016-09-23 16:00:24,853 ERROR org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: RECEIVED SIGNAL 15: SIGTERM
yarn-hduser-resourcemanager-arm1604.log:2016-09-23 16:00:24,873 ERROR org.apache.hadoop.security.token.delegation.AbstractDelegationTokenSecretManager: ExpiredTokenRemover received java.lang.InterruptedException: sleep interrupted
yarn-hduser-resourcemanager-arm1604.log:2016-09-23 16:00:25,004 ERROR org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: RECEIVED SIGNAL 15: SIGTERM
yarn-hduser-resourcemanager-arm1604.log:2016-09-23 16:00:25,042 ERROR org.apache.hadoop.yarn.server.resourcemanager.ResourceManager: Returning, interrupted : java.lang.InterruptedException
yarn-hduser-resourcemanager-arm1604.log:2016-09-23 16:00:25,046 ERROR org.apache.hadoop.security.token.delegation.AbstractDelegationTokenSecretManager: ExpiredTokenRemover received java.lang.InterruptedException: sleep interrupted

shiyeh 寫:
Hi all,

我是在arm (cavium) 平台上面跑 hadoop-2.7.1
OS: ubuntu 16.04
kernel: 4.4.0-generic
java ver: 1.8.0_101

在執行 TestDFSIO 時,還沒跑完服務就被關閉並退出
例如: $ hadoop jar hadoop-*test*.jar TestDFSIO -write -nrFiles 10 -fileSize 1000

我查log 看起來像是java引起的問題?
所有log如附檔。

感謝~~


附加檔案:
dmesg.log [117.37 KiB]
被下載 253 次
回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 執行特定example時,服務會被關閉
文章發表於 : 2016-10-12, 23:22 
離線

註冊時間: 2009-11-09, 19:52
文章: 2894
shiyeh 寫:
Hi Jazz,
我今天拿到機器了。
並複製出現像的同時的dmesg,如附檔dmesg.log
另外,之前有拿intel xeon的機器來測,同樣也是ubuntu 16.04 + hadoop-2.7.1,也會有這個現象
看起來應該跟是不是ARM平台無關。


先前也有人在 Ubuntu 16.04 上遇到類似的狀況
viewtopic.php?f=7&t=38328&start=10

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 執行特定example時,服務會被關閉
文章發表於 : 2016-10-13, 13:44 
離線

註冊時間: 2016-09-23, 17:49
文章: 5
Hi Jazz,

我看了看,的確滿像的
arm平台這邊也是
同樣環境,hadoop 2.7.1 + java 1.8 在 ubuntu 14.04 就不會有這個問題沒錯

所以可以精確的說:這是 ubuntu 16.04 的 bug ? 會導致 hadoop service 被 kill?


jazz 寫:
shiyeh 寫:
Hi Jazz,
我今天拿到機器了。
並複製出現像的同時的dmesg,如附檔dmesg.log
另外,之前有拿intel xeon的機器來測,同樣也是ubuntu 16.04 + hadoop-2.7.1,也會有這個現象
看起來應該跟是不是ARM平台無關。


先前也有人在 Ubuntu 16.04 上遇到類似的狀況
viewtopic.php?f=7&t=38328&start=10

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 執行特定example時,服務會被關閉
文章發表於 : 2016-10-14, 19:03 
離線

註冊時間: 2009-11-09, 19:52
文章: 2894
shiyeh 寫:
Hi Jazz,
我看了看,的確滿像的
arm平台這邊也是
同樣環境,hadoop 2.7.1 + java 1.8 在 ubuntu 14.04 就不會有這個問題沒錯
所以可以精確的說:這是 ubuntu 16.04 的 bug ? 會導致 hadoop service 被 kill?


確實有在懷疑是系統面的問題,因為 ubuntu 16.04 才改用 systemd ....
不確定是否哪裡的設定預設值造成這個狀況 :(

- Jazz


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 執行特定example時,服務會被關閉
文章發表於 : 2016-10-18, 13:32 
離線

註冊時間: 2016-09-23, 17:49
文章: 5
Hi Jazz,

更新一下。

我在 ubuntu 官方找到類似的bug,已有人回報。
https://bugs.launchpad.net/ubuntu/+sour ... ug/1610499

這篇也有
http://stackoverflow.com/questions/3841 ... untu-16-04


回頂端
 個人資料 E-mail  
 
 文章主題 : Re: 執行特定example時,服務會被關閉
文章發表於 : 2016-11-03, 12:27 
離線

註冊時間: 2009-11-09, 19:52
文章: 2894
shiyeh 寫:
Hi Jazz,
更新一下。
我在 ubuntu 官方找到類似的bug,已有人回報。
https://bugs.launchpad.net/ubuntu/+sour ... ug/1610499
這篇也有
http://stackoverflow.com/questions/3841 ... untu-16-04


Thanks for sharing.
看起來有一些 work around 的設定。

在 /etc/systemd/logind.conf 加入以下設定並重新啟動:
代碼:
[login]
KillUserProcesses=no


- Jazz


回頂端
 個人資料 E-mail  
 
顯示文章 :  排序  
發表新文章 回覆主題  [ 9 篇文章 ] 

所有顯示的時間為 UTC + 8 小時


誰在線上

正在瀏覽這個版面的使用者:沒有註冊會員 和 1 位訪客


不能 在這個版面發表主題
不能 在這個版面回覆主題
不能 在這個版面編輯您的文章
不能 在這個版面刪除您的文章
不能 在這個版面上傳附加檔案

搜尋:
前往 :  
cron
Powered by phpBB © 2000, 2002, 2005, 2007 phpBB Group
正體中文語系由 竹貓星球 維護製作