top 寫:
Hi Dears,
1. 請教有在使用 Hadoop 的, 請問你們公司如何幫 hadoop 做資料備份?
雖然 hdfs 有三個複本, 雖然有 secondary nn and HA...
但這都架構在同一個集群下? 若整個系統壞掉 or 來個地震 .......... 該怎麼辦?
2. 還是你們會建議用什麼方式來幫整個系統做備份?
3. 另外, 一般大家在 HDFS 上的檔案大多是多大呢? 128MB???
Thanks.
1. 您可以參考 Hadoop Operations 第十一章,大致上簡單來說就是 distcp, flume 這幾個工具。當然也可以搭配 DRBD 或 GPFS, Lustre 。
2. 您是指連同 OS 嘛?其實這個問題牽涉很廣,有時還有可能遇到的是要把營運中的升級到另一個新版本的叢集。作法就不一樣。目前我用過的是敝單位研發的「再生龍(Clonezilla)」,可以拿來做 block-based backup/restore (也就是裸機備份還原, bare-metal back/restore)。如果要做 online 差異備份還原,一般是採用 file-base back/restore 的工具,像是 rsync 等。
3. 目前 hadoop.nchc.org.tw 多半都是小檔(KB等級)。個人覺得這個跟叢集的使用者有很大的關係。電信業跟半導體業的搞不好就會很大。
- Jazz