2017年10月17日 星期二

變異數、變異係數、相關係數



變異數Variance) : 用來衡量資料的分散程度, 可以用來比較兩個同單位DataSet的分散程度

  E(X)=μ

A.變異數=變方=Var(X)σ²
B.變異數Var(X)為對數據的變異程度的衡量,常用來量測資料分散程度之指標值,變異數其定義為:每一個觀測值和平均值之間的偏差值的平方值的平均。

變異係數 (Coefficient of Variation)
 可以用來比較兩個不同單位DataSet的分散程度

定義說明:
          一組資料的變異係數是指將此組資料的標準差除以平均數所的商化為百分比所得之值。
                   設此組資料的平均數為,標準差為 s,則其變異係數為                                                   

詳細說明:
          變異係數是一種相對差異量數,用以比較單位不同或單位相
          同但資料差異甚大的資料分散情形。
範例解說:
          1.調查五位學生之身高及體重如下,試比較其分散程度。
            身高:172、168、164、170、176(公分)
            體重:62、57、58、64、64(公斤)
            
          解答:
               因為身高與體重的單位不同,欲比較二者的分散程度,
               可利用變異係數來比較。
               先計算身高與體重各自的平均數與標準差,得平均身高
               為170公分、標準差為4.47公斤,平均體重為61公斤、
               標準差為3.31公斤。
               計算身高的變異係數為4.47/170*100% = 2.63%,而體重
               的變異係數為3.31/61*100% = 5.4%。比較二者,體重的
               變異係數較大,所以體重的分散程度較大。

不過變異數是絕對離差量數,變異係數則是相對的 
當多組資料要比較離散程度時,若是每組資料單位相同, 則可用變異數或標準差來比較,值愈大,愈離散。 
若單位不同,則要用變異係數來比較,  因為變異係數等於標準差除以平均數,是一個沒有單位的值 .這樣才能做比較 

例如, 不同公司比較員工身高的分散程度,則可以用變異數去比較因為比的都是同樣的單位。
 若是不同單位的比較,則要用變異係數,表示資料相對分散程度,而沒有單位值。








相關係數(Correlation coefficient): 用來衡量兩個變數之間的關係密切程度
 相關係數的值介於–1與+1之間,即–1≤r≤+1。其性質如下:
  • 當r>0時,表示兩變數正相關,r<0時,兩變數為負相關。
  • 當|r|=1時,表示兩變數為完全線性相關,即為函數關係。
  • 當r=0時,表示兩變數間無線性相關關係。
  • 當0<|r|<1時,表示兩變數存在一定程度的線性相關。且|r|越接近1,兩變數間線性關係越密切;|r|越接近於0,表示兩變數的線性相關越弱。
  • 一般可按三級劃分:|r|<0.4為低度線性相關;0.4≤|r|<0.7為顯著性相關;0.7≤|r|<1為高度線性相關。

 r=\frac{\sum(x-\overline{x})(y-\overline{y})}{\sqrt{\sum(x-\overline{x})^2\sum(y-\overline{y})^2}}  



表1  廣告費與月平均銷售額相關表  單位:萬元
年廣告費投入月均銷售額
12.5
15.3
23.2
26.4
33.5
34.4
39.4
45.2
55.4
60.9
21.2
23.9
32.9
34.1
42.5
43.2
49.0
52.8
59.4
63.5
  參照表1,可計算相關係數如表2:
序號廣告投入(萬元)
x
月均銷售額(萬元)
y
x^2y2xy
1
2
3
4
5
6
7
8
9
10
12.5
15.3
23.2
26.4
33.5
34.4
39.4
45.2
55.4
60.9
21.2
23.9
32.9
34.1
42.5
43.2
49.0
52.8
59.4
63.5
156.25
234.09
538.24
696.96
1122.25
1183.36
1552.36
2043.04
3069.16
3708.81
449.44
571.21
1082.41
1162.81
1806.25
1866.24
2401.00
2787.84
3528.36
4032.25
265.00
365.67
763.28
900.24
1423.75
1486.08
1930.60
2386.56
3290.76
3867.15
合計346.2422.514304.5219687.8116679.09
r=\frac{n\sum xy-\sum x\sum y}{\sqrt{n\sum x^2-(\sum x)^2}\sqrt{n\sum y^2-(\sum y)^2}}
=\frac{10\times 16679.09-346.2\times 422.5}{\sqrt{10\times 14304.52-346.2^2}\sqrt{10\times 19687.81-422.5^2}}
=0.9942
  相關係數為0.9942,說明廣告投入費與月平均銷售額之間有高度的線性正相關關係。

[相關文章]


[相關課程]

[1]TensorFlow Lite for MCU https://bit.ly/3j2fIIt 
[2]AI機器學習&深度學習 http://bit.ly/2KDZZz4 
[3] AIoT智能聯網運算實戰(使用OpenVINO) http://bit.ly/2IlIUK8 
[4]AI自然語言與推薦系統應用 https://bit.ly/3qnO2Tg 
[5]python程式設計 https://bit.ly/359cz4m







1 則留言 :