利用weka機器學習軟體的Explorer/Classify功能,
針對刑事鑑定玻璃種類glass資料集,
嘗試各種分類器,含各種參數變化,
回答如下問題:
1.那一種分類器最能遷就既有資料,可就看過資料表現最好?
列出評比過的分類器,含各種參數變化,依準確率高到低排序.
提示:參考weka書17章1.9節,使用訓練集測試準確率
2.那一種分類器最能預測將來資料,可就未見資料表現最好?
列出評比過的分類器,含各種參數變化,依準確率高到低排序.
提示:參考weka書17章2.1-2.3節,使用10次交叉驗證測試準確率
3.就第2題所列前3名分類器中,何者耐雜訊能力最強,受類別雜訊干擾最少?
列出前3名分類器,依雜訊量由0%升到50%,準確率降低比例,由低到高排序.
提示:參考weka書17章2.6-2.8節,添加類別雜訊以交叉驗證作準確率測試
4.就第2題所列前3名分類器中,何者受訓練集大小之影響最小?
列出前3名分類器,依訓練集量由100%降到50%,準確率降低比例,由低到高排序.
提示:參考weka書17章2.9-2.11節,添加類別雜訊以交叉驗證作準確率測試
註:準確率降低比例的計算公式為:
若參數變化前準確率p_old,參數變化後準確率p_new,
則準確率降低比例=(p_old - p_new) / p_old
參考文獻:
1.weka軟體下載,內含glass資料集,
http://www.cs.waikato.ac.nz/~ml/weka/index_downloading.html
2.witten-11-mkp-data mining- practical machine learning tools and techniques with java implementations
第17章tutorial exercises for the weka explorer
Explorer::Classify
1.8.weather.nominal by J48
weka.classifiers.trees.J48
利用J48 -C.025 -M 2學習後,觀看決策樹,
sunny,cool,high,true案例應歸屬何類別
1.9.iris by J48 -C.025 -M 2,
訓練集測試準確率
交叉驗證測試準確率
何者較可信
1.10.iris by J48 -C.025 -M 2,
Visualize classifier errors分析錯誤位置
2.1.-2.3.glass.arff by IBk
weka.classifiers.lazy.IBk
屬性數,屬性名,類別屬性值
10切片交叉驗證, 單一鄰居數
--
IBk(k=1)準確率
--
IBk(k=5)準確率
2.4.-2.5.glass by IBk
人工挑選屬性子集合
屬性子集合大小,最佳屬性子集合,分類準確率
9
8
7
6
5
4
3
2
1
0
--
此最佳準確率有無偏頗,是否適用於未見資料?
2.6.-2.8.glass by IBk
weka.filters.unsupervised.attribute.AddNoise
weka.classifiers.meta.FilteredClassifier
過濾器只套用第1輪學習過程,跳過第2輪測試過程
讓雜訊只干擾學習集資料,不干擾測試集資料
-
不同鄰居數IBk應付類別雜訊效果(交叉驗證準確率)
雜訊量百分比,k=1,k=3,k=5
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
--
類別雜訊量變大,準確率變化效果
--
鄰居數變化,準確率變化效果
2.9.-2.11.glass by IBk (k=1) and J48
weka.filters.unsupervised.instance.Resample
-
IBk(k=1)及J48受訓練集大小影響效果
訓練集百分比,IBk(k=1),J48
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
--
訓練集百分比變高之影響?
--
IBk或J48誰受訓練集百分比影響較大?
weka tutorial test 1
訂閱:
張貼留言 (Atom)
Linked Lists from C to Java
「 C Pointer Concepts in Java 」一文提到 Java 沒有指標型別 (pointer type) ,但有參照型別 (reference type) 的設計。在遇到須要處理鏈結清單 (linked list)、圖形 (graph) 等資料結構時,Java ...
沒有留言:
張貼留言