【基礎資料探勘】Ch3 Part2
Ch3 Classification & Model Overfitting
Model Overfitting
- 分類誤差 :
- Training Errors
- Test Errors
- Generalization Errors (推論錯誤) : 模型對來自相同分佈隨機選擇記錄的預期誤差
- Model Underfitting : Training & Test Errors 都很大 → 模型太簡單
- Model Overfitting : Training Errors 很小 & Test Errors 很大 → 模型太複雜
- 會讓 Decision Tree 變過於複雜
- 形成原因 :
- Trainng Data 太少 → Under-representative (無代表性) → 當 Node 數↑,Overfitting 越嚴重
- 解法 : 增加 Training Data 比例
- Multiple Comparison Procedure : 誤將不相關的 Component 加進 Mode l中,e.g. noise
- Trainng Data 太少 → Under-representative (無代表性) → 當 Node 數↑,Overfitting 越嚴重
- Model Selection :
- 目的 : 避免讓 Model 過於複雜 → 防止 Overfitting
- 需要估計 Genralization Errors :
- 使用 Validation Set (驗證資料集) :
- Def : 估計 Genralization Error
- 跟 Test Data Set 不同
- 缺點 : Training Data 變少
- 考量 Model Complexity : Occam’s Razor 理論
- 兩個類似的 Generalization Error,會選較簡單的 Model
- 在評估一 Model 時,要考量其 Complexity
- $\color{blue}{\text{Gen. Error} = \text{Train Error}+\alpha \times \text{Complexity}}$
- Resubstitution Estimate(重新替代估計) : 為 Opimistic Error Estimate(樂觀誤差估計),用 Training Error 當作 Gen. Error 的樂觀估計值
- Pessimistic Error Estimate(悲觀誤差估計) : Leaf Node 數越多,Gen. Error 越高
- $err_{gen}(T)=err(T)+\Omega \times \frac{k}{N_{train}}$
- $k$ : Leaf Node 數、$N_{train}$ : Train Data 數
- Minimum Description Length(MDL)
- 估計 Statistical Bounds
- 使用 Validation Set (驗證資料集) :
- Pre-Pruning (預剪枝) :
- Def : 在長成 tree 前暫停 Algorithm
- 暫停條件 :
- 所有 Instance 屬於同一 Class 時
- 所有 Attribute value 皆相同時
- Node 的良好度量低於 Threshold 時
- 擴展當前 Node 不能提升 Improve measure 時
- Post-Pruning (後剪枝) :
- Def : 先把 tree 構造完畢,再由下往上剪
- Subtree Replacement :
- 若修剪後 Gen. Error 提升,則將子樹用一 Leaf Node 取代
- Leaf Node 的 Class Label 由子樹中大多數的 instances 所決定
- Subtree Raising :
- 由最常使用的 branch 來取代子樹
- Model Evaluation :
- Def : 估計 Classifier 作用於 Test Data Set 中的成效
- Holdout (最終驗證用) : $k$% Training、$(100-k)$% Testing,並反轉與重複
- Cross Validation (交叉驗證) :
- Def : 將資料切割成 $k$ 個 Disjoint Subsets
- $k$-fold ($k$折驗證) : $(k-1)$ 個 Partition 當 Training、$1$ 個 Partition 當 Testing
- $k$ 值會影響 Training Data 數量
- Leave-one-out (留一驗證) : 當 $k$ 為樣本數時的 $k$-fold
本部落格所有文章除特別聲明外,均採用 CC BY-NC-SA 4.0 許可協議。轉載請註明來自 Robin's Tech Blog!


