偏度(Skewness)又稱偏態(tài)、偏斜度、偏態(tài)系數(shù),是對統(tǒng)計(jì)數(shù)據(jù)分布偏斜程度的度量,是描述分布非對稱程度的數(shù)字特征。分布數(shù)列中,如果次數(shù)分布是完全對稱的,則稱對稱分布;如果次數(shù)分布不完全對稱,則稱非對稱分布或偏態(tài)分布,偏度有左偏和右偏之分。
偏度最初由卡爾·皮爾遜(Karl Pearson)在1895年提出,皮爾遜在論文中將偏度定義為眾數(shù)與均值之間的距離與標(biāo)準(zhǔn)差的比率。1896年,尤爾(Yule G U)進(jìn)一步提出偏斜曲線常數(shù)的分布通??梢员灰暈榉浅=咏龖B(tài)。其他統(tǒng)計(jì)學(xué)研究者如格魯內(nèi)費(fèi)爾德(Groeneveld R A)及米登(Meeden G)、西格倫(Seglen P O)、阿諾德(Arnold B C)等人在不同程度上豐富了對偏度的研究。隨著統(tǒng)計(jì)學(xué)的發(fā)展,偏度的研究逐漸與其他統(tǒng)計(jì)概念和方法相結(jié)合,形成了更加豐富和完善的統(tǒng)計(jì)分析體系。
偏度的計(jì)算方法有很多,比較常用的是“算術(shù)平均數(shù)與眾數(shù)比較法”及動差法。兩種方法的主要區(qū)別在于,前者使用算術(shù)平均數(shù)、中位數(shù)、眾數(shù)來測定偏度,后者則使用三階中心動差進(jìn)行計(jì)算。偏度和峰度主要用于檢查樣本的分布是否為正態(tài)分布,由此來判斷總體的分布是否接近于正態(tài)分布。在實(shí)際中一個分布的偏度與峰度皆為0或近似為0時,常認(rèn)為該分布為正態(tài)分布或近似為正態(tài)分布。
定義
偏度又稱偏態(tài)、偏斜度、偏態(tài)系數(shù),是對統(tǒng)計(jì)數(shù)據(jù)分布偏斜程度的度量,是描述分布非對稱程度的數(shù)字特征。設(shè)隨機(jī)變量的前三階矩存在,則如下比值:
稱為的偏度系數(shù),簡稱偏度。當(dāng)時,稱該分布正偏,又稱右偏;當(dāng)時,稱該分布為負(fù)偏,又稱左偏;偏度系數(shù)意味著分布具有一定的對稱性,任意正態(tài)分布的偏度皆為0。
簡史
偏度(Skewness)這一概念最初由統(tǒng)計(jì)學(xué)家卡爾·皮爾遜(Karl Pearson)在1895年提出,皮爾遜在論文中將偏度定義為眾數(shù)與均值之間的距離與標(biāo)準(zhǔn)差的比率。1896年,尤爾(Yule G U)在皮爾遜的研究基礎(chǔ)上,采用頻率曲線的處理方法進(jìn)一步豐富了皮爾遜提出的偏度理論,提出偏斜曲線常數(shù)的分布通常可以被視為非常接近正態(tài),或者需要采用一些更復(fù)雜的測量方法并給出可能誤差。
此外,其他統(tǒng)計(jì)學(xué)研究者在不同程度上進(jìn)一步豐富了對偏度的研究。例如,1984年,格魯內(nèi)費(fèi)爾德(Groeneveld R A)及米登(Meeden G)等解決了如何測量連續(xù)隨機(jī)變量的偏斜程度的問題。1992年,西格倫(Seglen P O)發(fā)現(xiàn),出版的文章被引用度的分布非常偏斜,接近半對數(shù)圖中的線性。1996年,阿諾德(Arnold B C)發(fā)現(xiàn)了幾種可以用來量化分布的偏斜程度的方法,這些方法基于分布的期望或中位數(shù)。隨著統(tǒng)計(jì)學(xué)的發(fā)展,偏度的研究逐漸與其他統(tǒng)計(jì)概念和方法相結(jié)合,形成了更加豐富和完善的統(tǒng)計(jì)分析體系。例如,與偏度與峰度、正態(tài)分布的聯(lián)系相關(guān)的研究,為數(shù)據(jù)分布的全面描述提供了更多工具。
性質(zhì)
偏度可能存在無窮大或者無法定義的情況。當(dāng)時,該分布中二階和三階累積量趨于無窮大,無法定義偏度;或者當(dāng)或時,三階累積量無法定義,故而偏度也無法定義。
計(jì)算方法
算術(shù)平均數(shù)與眾數(shù)比較法
算術(shù)平均數(shù)與眾數(shù)比較法是利用算術(shù)平均數(shù)、中位數(shù)與眾數(shù)三者之間的關(guān)系來測定偏度的方法。對稱分布中,算術(shù)平均數(shù)、中位數(shù)、眾數(shù)三者合而為一,所以偏度為零。非對稱分布中,三者分離,算術(shù)平均數(shù)與眾數(shù)分居兩邊,中位數(shù)介于二者之間。這時,算術(shù)平均數(shù)與眾數(shù)之間的距離可以作為測定偏態(tài)的一個尺度。即為:,這是偏度的絕對量。這個絕對量為正值,則總體為右偏分布,若為負(fù)值,則總體為左偏分布。同時算術(shù)平均數(shù)與眾數(shù)之間的距離越大,說明總體次數(shù)分布的偏斜程度越大;反之,則說明分布的偏斜程度越小。但是對于不同的分布數(shù)列,其偏度絕對量不便于直接對比。為了比較不同的分布數(shù)列的偏斜程度,還需要計(jì)算偏度的相對數(shù)指標(biāo),這就是偏態(tài)系數(shù)。偏態(tài)系數(shù)是偏度與總體標(biāo)準(zhǔn)差之比,反映分布數(shù)列的相對偏斜程度。通常以表示。計(jì)算公式為:。
動差法
動差又稱矩,原是物理學(xué)中的術(shù)語。指的是力與力臂對重心的關(guān)系。這與統(tǒng)計(jì)學(xué)中權(quán)數(shù)和變量值對平均數(shù)的關(guān)系很相似。如下圖,這里是將各組標(biāo)志值視為力臂,各組次數(shù)所占比重視為作用于各點(diǎn)的力,則所有的力對原點(diǎn)的一階動差為:上式可稱為原點(diǎn)的一階動差。
統(tǒng)計(jì)分析中,多用中心動差來測定次數(shù)分布的偏斜程度。由于任何分布的一階中心動差都為零,故不能用來測定偏度。任何離差,經(jīng)過偶次方后,皆為正值,匯總后不再互相抵消,無法說明左偏或右偏。因此,只可用除一階動差外的奇次方離差計(jì)算的動差。對稱分布時,變量值的次數(shù)分布圍繞著平均數(shù)完全對稱,其中心動差為零;非對稱分布時,等中心動差都不為零,且有正負(fù)之值,可以用來測定非對稱分布的偏斜程度。為簡便計(jì)算,通常采用三階中心動差作為測定偏態(tài)的依據(jù)。若以表示偏態(tài)系數(shù),則:,又因?yàn)?,即,故也可以表示為,?dāng)時,表明分布數(shù)列是對稱分布;當(dāng)時,表明分布數(shù)列是正向偏態(tài)(右偏);這時大于算術(shù)平均數(shù)的標(biāo)志值分布離散程度大,致使分布曲線尾端拖向右邊,峰部偏向左邊;當(dāng)時,表明分布數(shù)列是負(fù)向偏態(tài)(左偏);這時小于算術(shù)平均數(shù)的標(biāo)志值分布離散程度大,致使分布曲線的尾端拖向左邊,峰部偏向右邊。
計(jì)算舉例
甲車間300工人,日產(chǎn)量資料如下表。以該表數(shù)據(jù)為例,分別用算術(shù)平均數(shù)與眾數(shù)比較法、動差法進(jìn)行偏度計(jì)算。
算術(shù)平均數(shù)與眾數(shù)比較法
根據(jù)表中資料計(jì)算,計(jì)算具體過程如下。計(jì)算結(jié)果表明甲車間日產(chǎn)量的分布是右偏分布,偏斜程度為0.07。其偏態(tài)系數(shù)較小,說明工人日產(chǎn)量的眾數(shù)接近平均數(shù)水平。
在計(jì)算偏態(tài)系數(shù)時,如果公式中的眾數(shù)不易求得,可以用平均數(shù)和中位數(shù)推算。如前所述,分布數(shù)列在微偏的情況下,采用如下計(jì)算過程:
計(jì)算結(jié)果與用眾數(shù)計(jì)算的結(jié)果非常接近,即工人日產(chǎn)量的分布是右偏分布且偏斜程度較小。
動差法
仍以車間日產(chǎn)量資料表為例,用動差法計(jì)算其偏態(tài)系數(shù),計(jì)算過程如下。
計(jì)算結(jié)果表明,該分布數(shù)列的偏斜程度為0.032,是輕微的右偏分布,與第一種計(jì)算方法得到的結(jié)論相同。
相關(guān)概念
皮爾遜偏度
對于只有一個眾數(shù)的情形,常用或做數(shù)據(jù)偏斜程度的度量,并稱之為卡爾·皮爾遜偏度(Pearson skewness)。皮爾遜偏度具有與偏度類似的性質(zhì),有如下經(jīng)驗(yàn)結(jié)果:數(shù)據(jù)分布左偏,則<0,并且值越小說明其左偏程度越高;數(shù)據(jù)分布右偏,則>0,并且值越大,說明其右偏程度越高,數(shù)據(jù)分布對稱時,顯然=0。
對于斜分布,均值和眾數(shù)都落在尾部較長的一邊,因此,均值和眾數(shù)的差就可用來度量不對稱性,如果再除以離差,比如標(biāo)準(zhǔn)差,就可得到偏度的無量綱形式:,該式稱為卡爾·皮爾遜第一偏度系數(shù)。
如果不用眾數(shù),可以用實(shí)驗(yàn)式,得到:,該式稱為皮爾遜第二偏度系數(shù)。
格魯內(nèi)費(fèi)爾德和米德恩系數(shù)
格魯內(nèi)費(fèi)爾德(Groeneveld) 和 米德恩(Meeden) 提出可以作為偏度的替代度量,其中為平均值,為眾數(shù)。該表達(dá)式在形式上與卡爾·皮爾遜第二偏度系數(shù)密切相關(guān)。
L矩
霍斯金(Hosking)提出基于矩的偏度和峰度的替代度量,,其中 ,矩能夠以更符合正態(tài)性擬合優(yōu)度檢驗(yàn)的方式量化與正態(tài)分布的偏差。
距離偏度
偏度值為零并不意味著概率分布是對稱的。因此,需要另一種具有此屬性的不對稱度量作為輔助,這種度量稱為距離偏度,用 表示。如果是在維歐幾里德空間中取值的隨機(jī)變量,具有有限期望,是X的獨(dú)立同分布副本,并且表示歐幾里德空間中的范數(shù),則關(guān)于不對稱性的簡單度量位置參數(shù) θ 為,距離偏度表達(dá)式如下:
樣本分位數(shù)偏度
樣本分位數(shù)偏度(Sample quantile kurtosis)指的是把分位數(shù)峰度中分位數(shù)換成樣本分位數(shù)后所得統(tǒng)計(jì)量。如樣本四分位偏度、樣本十分位偏度等。以樣本四分位偏度為例,把四分位偏度中的四分位數(shù)換成相應(yīng)樣本四分位數(shù),即得樣本四分位偏度。更一般地,可以推廣至10~90百分位偏度系數(shù)。其表達(dá)式如下:
峰度
峰度(Kurtosis)亦稱峭度、峰態(tài)、峰態(tài)系數(shù)等,是對統(tǒng)計(jì)數(shù)據(jù)分布陡峭程度的度量。峰度是用四階矩定義的,對于任意一組單峰分布的數(shù)據(jù)稱為其峰度。其中和分別是數(shù)據(jù)的四階中心矩和二階中心矩。峰度分為正態(tài)峰度、尖頂峰度和平頂峰度,可以證明,對服從正態(tài)分布律的數(shù)據(jù),峰度等于或接近0。對絕大多數(shù)不服從正態(tài)分布律的數(shù)據(jù),有這樣的經(jīng)驗(yàn)結(jié)果:當(dāng)分布曲線較正態(tài)分布更加“陡峭”時,>0,并稱為尖頂峰度;當(dāng)分布曲線較正態(tài)分布“平坦”時,<0,并稱為平頂峰度。一般來說,的值越大,則圖形越陡峭;的值越小,則圖形越平坦。
作用
偏度和峰度主要用于檢查樣本的分布是否為正態(tài)分布,由此來判斷總體的分布是否接近于正態(tài)分布。在實(shí)際中一個分布的偏度與峰度皆為0或近似為0時,常認(rèn)為該分布為正態(tài)分布或近似為正態(tài)分布。通常假設(shè)樣本的分布屬于正態(tài)分布,因此需要用偏度和峰度來檢查樣本是否符合正態(tài)分布。偏度衡量的是樣本分布的偏斜方向和程度,而峰度衡量的是樣本分布曲線的尖峰程度。由偏度檢驗(yàn)的正態(tài)分布常用于近似描述一些生產(chǎn)與科學(xué)實(shí)驗(yàn)中隨機(jī)變量的概率分布,還有一些常用的概率分布是直接由正態(tài)分布導(dǎo)出的,例如對數(shù)正態(tài)分布,分布、分布和分布。偏度也適用于假設(shè)檢驗(yàn),例如檢驗(yàn)就是基于樣本偏度和樣本峰度的擬合優(yōu)度正態(tài)性檢驗(yàn)。此外,偏度是一種描述性統(tǒng)計(jì)量,可以與直方圖和正態(tài)分位數(shù)圖結(jié)合使用來表征數(shù)據(jù)或分布,表示分布偏離正態(tài)分布的方向和相對大小。偏度還可用于通過柯尼希-費(fèi)舍爾展開(Cornish-Fisher)獲得分布的近似概率和分位數(shù)(例如金融中的風(fēng)險(xiǎn)價(jià)值)。
根據(jù)中心極限定理,當(dāng)變量之和接近高斯分布時,其偏度會隨著樣本量的增加而減小,這是因?yàn)殡S著樣本量的增加,獨(dú)立同分布的隨機(jī)變量之和的三階累積量與二階累積量的比率會下降。
參考資料 >
偏態(tài).中國大百科全書.2024-02-26
樣本偏度系數(shù).中國大百科全書.2024-02-26
描述統(tǒng)計(jì)量分析.中國大百科全書.2024-02-26
正態(tài)分布.中國大百科全書.2024-02-26