當樣本類別分佈很不平均時 , 如何解決?
除了用data augumentation 增加少數Minority類別的樣本資料, 也可以用Resampling 的方法,避免模型訓練後偏向回答多數(Majority)類別的答案 .
Resampling 是指反覆地從訓練資料中抽取不同的樣本子集,並對每組子集重新訓練模型,減少模型的偏差。Resampling 的方法如 Bootstrap 取樣法或 K-Fol 交叉驗證,這兩種方法其主要差異在於樣本子集的抽取方式:Bootstrap使用有放回的隨機抽樣,而 k-fold 交叉驗證則將資料分成 k 個不重疊的子集進行訓練與驗證。
![]() |
不平衡資料集 |
(1) 從資料下手:
Resampling 是指反覆地從訓練資料中抽取不同的樣本子集,並對每組子集重新訓練模型,減少模型的偏差。Resampling 的方法如 Bootstrap 取樣法或 K-Fol 交叉驗證,這兩種方法其主要差異在於樣本子集的抽取方式:Bootstrap使用有放回的隨機抽樣,而 k-fold 交叉驗證則將資料分成 k 個不重疊的子集進行訓練與驗證。
- 訓練: 選取其中 k-1 個摺作為訓練數據來訓練模型。
- 驗證: 用剩下那 1 個摺作為臨時的測試集(或驗證集),來評估模型的表現(例如計算準確率)。