Seke Blog: weka.classifiers.trees


weka.classifiers.trees
  ADTree, Alternating Decision Tree 交替決策樹
        適用於雙類別預測
        以推進法,累進新增節點長出選項樹,具分叉及預測兩類節點
          典型推進法如 LogitBoost 對數機率比推進法，
          套在底層 ConjunctiveRule 合取式規則學習器上
        預設推進次數為10，每次推進若無合併，可新增一分叉節點及二預測節點
          推進次數愈多，模型愈複雜，但效果不一定好，要手調適當參數
        擴張路徑方法
                Expand all paths (預設,擴展所有路徑,最慢)
                Expand the heaviest path 擴展權重最大路徑
                Expand the best z-pure path 擴展最佳z純度路徑
                Expand a random path 擴展隨機1條路徑
        99-freund-icml-the alternating decision tree learning algorithm

  DecisionStump, 決策樹根
        適用於類別/數值預測,接受缺值(長第3分叉),常作為推進法之底層學習器
        建立單節點雙分叉決策樹,只允許依某屬性為某值與否作二元分叉
        遇缺值可再加一未知值分叉

  Id3,
        適用於類別預測,名目屬性,無缺值
        節點分裂屬性挑法:利用資訊增益比為指標,留大者
                資訊增益比=分裂前後資訊增量/分裂資訊量
        無樹修剪,空案例葉節點會造成無法分類情形
        86-quinlan-ml-induction of decision trees

  J48, 即C4.5
        適用於類別預測
        節點分裂屬性挑法:利用資訊增益比為指標,留大者
        遇數值屬性,限定用二元分叉,分叉點選擇利用資訊增量為指標
        遇缺值,採用案例分解碎片再匯總作法
        修剪策略:長後修剪,從葉至根測試子樹替換或子樹提昇之錯誤率是否下降
          計算錯誤率方法,可採用縮減誤差修剪法,利用保留之修剪案例為之
        參數:
          binarySplits: [false] 名目屬性作二元分叉
          confidenceFactor: [0.25] 估錯誤率上限之信心水準,愈小修剪愈多
          minNumObj: [2] 葉節點最少案例數
          numFolds: [3] 訓練集分割組數,其中1組保留作縮減錯誤修剪,其餘供長樹用
          reducedErrorPruning: [false]  縮減誤差修剪
          subtreeRaising: [false] 子樹提昇修剪,較費時
          unpruned: [true] 樹不修剪
          useLaplace: [false] 輸出葉節點之類別分佈機率時是否平滑化
        93-quinlan-mkp-c4.5: programs for machine learning

  LMT, Logistic Model Tree 邏輯模型樹
        適用於雙/多類別預測
        決策樹葉節點為各類別之線性邏輯模型
        節點分裂屬性挑法:利用推進法殘差(留小者)或資訊增量(留大者)為指標
        利用LogitBoost推進法,套在底層簡單線性迴歸器,
                每次推進,找出一個誤差最小之屬性疊加到線性邏輯模型上
                推進結束時,即得一最大概似率之多元邏輯迴歸模型
        參數:
          convertNominal: [false] 名目屬性轉為多個二值屬性,採二元分叉
          errorOnProbabilities: [false] 交叉驗證指標依機率均方根值,否則依誤判數
          fastRegression: [true] 各節點推進次數統一由一次交叉驗證決定
          minNumInstances: [15] 節點要最少多少案例才考慮分裂
          numBoostingIterations: [-1] 固定推進次數,-1表依各節點交叉驗證決定
          splitOnResiduals: [false] 節點分裂依殘差指標,否則依資訊增量指標
        03-landwehr-ecml-logistic model trees

  M5P, Model 5 Prime 多元線性模型樹
        適用於數值預測
        決策樹葉節點為多元線性模型
        節點分裂屬性挑法:利用案例之標準差降低量sdr為指標,留大者
        分裂屬性時永遠採二元分叉
          遇數值屬性,依數值排序,測試每個分割點,計算sdr取大者
          遇k值名目屬性,先轉為k-1個合成二值屬性,依各合成屬性平均值排序,
                再測試每個分割點,計算sdr取大者
        遇缺值,於訓練選分裂屬性時,依缺值案例佔目前案例之比例,縮小sdr值
                於訓練分配案例時,先算無缺值而歸屬左右分叉之兩案例數值平均值
                  再依缺值案例之數值是否大於兩平均值之平均值,而歸屬適當一方
                  等訓練長樹結束時,所有缺值由其所處葉節點案例平均值取代
                  註:此法為找出最相關屬性作代理分裂(surrogate split)之簡化版
                於測試分配案例時,缺值由同時到達該內部節點之訓練案例平均值取代
        修剪策略:採長後修剪,從葉至根測試子樹替換回葉節點之錯誤率是否下降
          葉節點之線性迴歸模型,其自變數則取自原子樹各內部節點屬性
          葉節點錯誤率為將目前案例之實際減預測的殘差平均值,再作悲觀放大
                放大比例為(n+v)/(n-v),n為訓練案例數,v為悲觀度調整值
          內部節點(即子樹)錯誤率為其左右兩子樹錯誤率之案例數比重加總
        預測數值時,利用樹根到葉節點路徑上之所有模型作平滑化處理
        參數:
          buildRegressionTree: [false] 建迴歸樹,否則只有樹根長葉節點模型
          minNumInstances: [4.0] 各葉節點最少案例數
          unpruned: [false] 不修剪
          useUnsmoothed: [false] 預測數值時不平滑化處理
        97-wang-ecml-induction of model trees for predicting continuous classes
        92-quinlan-ajcai-learning with continuous classes

  NBTree, Naive Bayes Tree 簡單貝氏樹
        適用於類別預測
        混用決策樹及簡單貝氏兩學習器
        決策樹葉節點為簡單貝氏分類器
        利用交叉驗證判別節點要分裂成內部節點,或維持貝氏模型葉節點
        96-kohavi-ickddm-scaling up the accuracy of naive-bayes classifiers- a decision tree hybrid

  RandomForest, 隨機森林
        適用於類別預測
        利用重複取樣聚合法(bagging),建立給定顆隨機樹
        參數:
          numFeatures: [0] 分裂屬性自多少最佳屬性中亂數取一, 0表3
          numTrees: [10] 打算長出幾顆樹
          seed: [1] 挑分裂屬性之亂數種子
        01-breiman-ml-random forests

  RandomTree, 隨機樹
        適用於類別預測
        節點分裂屬性挑法:每回自給定個最佳屬性中亂數取一
        不作節點修剪
        參數:
          KValue: [1] 分裂屬性自多少最佳屬性中亂數取一
          minNum: [1.0] 葉節點最少案例權重數
          seed: [1] 挑分裂屬性之亂數種子

  REPTree, Reduced-Error Pruning Tree 縮減誤差修剪樹
        適用於類別/數值預測
        節點分裂屬性挑法:利用資訊增量/變異數,快速長出決策/迴歸樹,
        修剪策略:長後修剪,利用縮減誤差修剪法
          參數nFolds為訓練集分割組數,其中1組保留作縮減錯誤修剪,其餘供長樹用
        數值屬性只排序一次,以加快學習速度
        遇缺值同c4.5,採用案例分解碎片再匯總作法
        可設定其他參數
          minNum: 葉節點最小案例總權重,預設值2
          minVarianceProp: 案例變異數需佔原始訓練集多少比例以上才作節點分裂
                預設值:0.001,適用於預測對象為數值時
          maxDepth: 長樹最大深度限制,預設值-1,代表無限制,適用於搭配推進法時

  UserClassifier, 用戶手動分類器
        適用於類別/數值預測
        節點分裂屬性挑法:人工一次挑選任兩屬性之適當2維區間作節點分裂用
Seke Blog

weka.classifiers.trees

沒有留言:

Building a Lightweight Streamlit Client for Local Ollama LLM Interaction

總網頁瀏覽量