IT Lab艾鍗學院技術Blog: 不平衡資料集: 使用 k-fold 交叉訓練

2025年1月10日星期五

不平衡資料集: 使用 k-fold 交叉訓練

當樣本類別分佈很不平均時,如這樣, 如果無法使用data augumentation 增加少數離Minority)類別的樣本資料，可以只有重抽樣的方法，避免模型訓練後只會偏向回答多數(Majority)類別的答案。

Resampling 是指反覆地從訓練資料中抽取不同的樣本子集，並對每組子集重新訓練模型，減少模型的偏差。可以選擇 Bootstrap取樣法與 K-Fold 交叉驗證皆屬於重抽樣方法，其主要差異在於樣本子集的抽取方式：Bootstrap使用有放回的隨機抽樣，而 k-fold 交叉驗證則將資料分成 k 個不重疊的子集進行訓練與驗證。