這是執行20news範例所顯示出來的
附加檔案:
mahout_test_pic(20news).png [ 89.07 KiB | 被瀏覽 20116 次 ]
意思大致上都瞭解
20news的範例資訊是Train的資料夾以及Test資料夾數目都相同(也就是說分類夾都有對應到)所以才確認分類到的正確數
而這是改用自己的數據所測的(也是Train的資料夾以及Test資料夾數目都相同的情況下執行)
附加檔案:
food_bayes.png [ 29.27 KiB | 被瀏覽 20116 次 ]
當我將Train的資料夾數目減少後 Test資料夾數目不變 Test還是可以去找尋相關的分類夾 只是會有test找不到相對應的資料夾
而當我將Test的資料夾數目減少後 Train資料夾數目不變 反而會出現Label找不到的資訊
附加檔案:
food_bayes_exception.png [ 83.78 KiB | 被瀏覽 20116 次 ]
想請問
1.model是由Train來的 為何在Test的資料夾數目減少 Train資料夾數目不變的情況下 會發生找不到Label的問題??
2.分類法的目的不就是經由train出來的model 給未分類的資料做分類依據嗎?? 那為何必須要事先分好資料夾呢?? 這
3.小弟是用mahout org.apache.mahout.classifier.bayes.PrepareTwentyNewsgroups 分別生成自己的數據的train 及 test 不知道會部會有問題
以上 請教一下各位大大了 謝謝
