2012年6月15日 星期五

weka tutorial test 1

利用weka機器學習軟體的Explorer/Classify功能,
針對刑事鑑定玻璃種類glass資料集,
嘗試各種分類器,含各種參數變化,
回答如下問題:

1.那一種分類器最能遷就既有資料,可就看過資料表現最好?
  列出評比過的分類器,含各種參數變化,依準確率高到低排序.
 提示:參考weka書17章1.9節,使用訓練集測試準確率

2.那一種分類器最能預測將來資料,可就未見資料表現最好?
  列出評比過的分類器,含各種參數變化,依準確率高到低排序.
 提示:參考weka書17章2.1-2.3節,使用10次交叉驗證測試準確率

3.就第2題所列前3名分類器中,何者耐雜訊能力最強,受類別雜訊干擾最少?
  列出前3名分類器,依雜訊量由0%升到50%,準確率降低比例,由低到高排序.
 提示:參考weka書17章2.6-2.8節,添加類別雜訊以交叉驗證作準確率測試

4.就第2題所列前3名分類器中,何者受訓練集大小之影響最小?
  列出前3名分類器,依訓練集量由100%降到50%,準確率降低比例,由低到高排序.
 提示:參考weka書17章2.9-2.11節,添加類別雜訊以交叉驗證作準確率測試

註:準確率降低比例的計算公式為:
   若參數變化前準確率p_old,參數變化後準確率p_new,
   則準確率降低比例=(p_old - p_new) / p_old

參考文獻:
1.weka軟體下載,內含glass資料集,
   http://www.cs.waikato.ac.nz/~ml/weka/index_downloading.html

2.witten-11-mkp-data mining- practical machine learning tools and techniques with java implementations
  第17章tutorial exercises for the weka explorer

  Explorer::Classify
 1.8.weather.nominal by J48
   weka.classifiers.trees.J48
   利用J48 -C.025 -M 2學習後,觀看決策樹,
     sunny,cool,high,true案例應歸屬何類別

 1.9.iris by J48 -C.025 -M 2,
   訓練集測試準確率
   交叉驗證測試準確率
   何者較可信

 1.10.iris by J48 -C.025 -M 2,
   Visualize classifier errors分析錯誤位置

 2.1.-2.3.glass.arff by IBk
   weka.classifiers.lazy.IBk
   屬性數,屬性名,類別屬性值
   10切片交叉驗證, 單一鄰居數
   --
   IBk(k=1)準確率
   --
   IBk(k=5)準確率

 2.4.-2.5.glass by IBk
   人工挑選屬性子集合
   屬性子集合大小,最佳屬性子集合,分類準確率
  9
  8
  7
  6
  5
  4
  3
  2
  1
  0
   --
   此最佳準確率有無偏頗,是否適用於未見資料?

 2.6.-2.8.glass by IBk
   weka.filters.unsupervised.attribute.AddNoise
   weka.classifiers.meta.FilteredClassifier
     過濾器只套用第1輪學習過程,跳過第2輪測試過程
     讓雜訊只干擾學習集資料,不干擾測試集資料
   -
   不同鄰居數IBk應付類別雜訊效果(交叉驗證準確率)
   雜訊量百分比,k=1,k=3,k=5
   0%
   10%
   20%
   30%
   40%
   50%
   60%
   70%
   80%
   90%
   100%
   --
   類別雜訊量變大,準確率變化效果
   --
   鄰居數變化,準確率變化效果

 2.9.-2.11.glass by IBk (k=1) and J48
   weka.filters.unsupervised.instance.Resample
   -
   IBk(k=1)及J48受訓練集大小影響效果
   訓練集百分比,IBk(k=1),J48
   10%
   20%
   30%
   40%
   50%
   60%
   70%
   80%
   90%
   100%
   --
   訓練集百分比變高之影響?
   --
   IBk或J48誰受訓練集百分比影響較大?

沒有留言: