利用weka機器學習軟體的Explorer/Classify功能, 針對刑事鑑定玻璃種類glass資料集, 嘗試各種分類器,含各種參數變化, 回答如下問題: 1.那一種分類器最能遷就既有資料,可就看過資料表現最好? 列出評比過的分類器,含各種參數變化,依準確率高到低排序. 提示:參考weka書17章1.9節,使用訓練集測試準確率 2.那一種分類器最能預測將來資料,可就未見資料表現最好? 列出評比過的分類器,含各種參數變化,依準確率高到低排序. 提示:參考weka書17章2.1-2.3節,使用10次交叉驗證測試準確率 3.就第2題所列前3名分類器中,何者耐雜訊能力最強,受類別雜訊干擾最少? 列出前3名分類器,依雜訊量由0%升到50%,準確率降低比例,由低到高排序. 提示:參考weka書17章2.6-2.8節,添加類別雜訊以交叉驗證作準確率測試 4.就第2題所列前3名分類器中,何者受訓練集大小之影響最小? 列出前3名分類器,依訓練集量由100%降到50%,準確率降低比例,由低到高排序. 提示:參考weka書17章2.9-2.11節,添加類別雜訊以交叉驗證作準確率測試 註:準確率降低比例的計算公式為: 若參數變化前準確率p_old,參數變化後準確率p_new, 則準確率降低比例=(p_old - p_new) / p_old 參考文獻: 1.weka軟體下載,內含glass資料集, http://www.cs.waikato.ac.nz/~ml/weka/index_downloading.html 2.witten-11-mkp-data mining- practical machine learning tools and techniques with java implementations 第17章tutorial exercises for the weka explorer Explorer::Classify 1.8.weather.nominal by J48 weka.classifiers.trees.J48 利用J48 -C.025 -M 2學習後,觀看決策樹, sunny,cool,high,true案例應歸屬何類別 1.9.iris by J48 -C.025 -M 2, 訓練集測試準確率 交叉驗證測試準確率 何者較可信 1.10.iris by J48 -C.025 -M 2, Visualize classifier errors分析錯誤位置 2.1.-2.3.glass.arff by IBk weka.classifiers.lazy.IBk 屬性數,屬性名,類別屬性值 10切片交叉驗證, 單一鄰居數 -- IBk(k=1)準確率 -- IBk(k=5)準確率 2.4.-2.5.glass by IBk 人工挑選屬性子集合 屬性子集合大小,最佳屬性子集合,分類準確率 9 8 7 6 5 4 3 2 1 0 -- 此最佳準確率有無偏頗,是否適用於未見資料? 2.6.-2.8.glass by IBk weka.filters.unsupervised.attribute.AddNoise weka.classifiers.meta.FilteredClassifier 過濾器只套用第1輪學習過程,跳過第2輪測試過程 讓雜訊只干擾學習集資料,不干擾測試集資料 - 不同鄰居數IBk應付類別雜訊效果(交叉驗證準確率) 雜訊量百分比,k=1,k=3,k=5 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% -- 類別雜訊量變大,準確率變化效果 -- 鄰居數變化,準確率變化效果 2.9.-2.11.glass by IBk (k=1) and J48 weka.filters.unsupervised.instance.Resample - IBk(k=1)及J48受訓練集大小影響效果 訓練集百分比,IBk(k=1),J48 10% 20% 30% 40% 50% 60% 70% 80% 90% 100% -- 訓練集百分比變高之影響? -- IBk或J48誰受訓練集百分比影響較大?
2012年6月15日 星期五
weka tutorial test 1
訂閱:
張貼留言 (Atom)
沒有留言:
張貼留言