2017年10月20日 星期五

為什麼要對特徵標準化(feature normalization)?



為什麼在做clustering 或Classification  常會將Feature做Normalize, 但為什麼要呢?
google了些關於正規化(normalize)的資料 都只有公式和分布狀態的資訊 但我疑惑的點是在比較資料時 但還是不懂為什麼要正規化呢?

標準化(normalize)就是去掉不同Feature 單位的影響,因為你不用管單位, 你只要管你和別人之間的差異有多少就好. 不必管真正的值是多少。

所以對每一個feature 都做正規化後,Feature 之間都是"unit variance", 每一個Feature 都具有相同的scale。例如: 用身高的數值都比眼睛視力的數值大, 正規化後都變具有相同的scale


https://en.wikipedia.org/wiki/Feature_scaling

===================================
Normalization 的程序:



Graph of standard deviation of metabolic rate of fulmars

沒有留言 :

張貼留言