有幾個問題想請教各位先進
我使用hadoop streaming來進行視訊轉碼的job
轉碼由map進行,因此不希望執行reduce,以減少整個job的工作時間
下達的命令如下:
代碼:
bin/hadoop jar /home/hadoop/hadoop-0.20.2/contrib/streaming/hadoop-0.20.2-streaming.jar
-input movies_input -output movies_output -mapper mapper.sh -file mapper.sh
問題1:我沒有給予reduce的function也沒下達reduce的命令
為什麼job結束後查看50030網頁,reduce還是有被執行呢?
附加檔案:
檔案註釋: 50030網頁
50030.jpg [ 44.98 KiB | 被瀏覽 3829 次 ]
附加檔案:
檔案註釋: reduce執行時間
reduce執行時間.jpg [ 32.14 KiB | 被瀏覽 3829 次 ]
問題2:假設將一部影片切割成4段,由4個data node分別來執行這4段影片的轉碼
我希望4個data node轉碼完成後,就可以直接提供給用戶觀看影片
但考慮到分段後有播放順序的問題,不知是否有什麼方法可以實現上述的想法?