峰度(kurtosis)亦稱峭度、峰態、峰態系數等,是對統計數據分布陡峭程度的度量。峰度用于判斷隨機變量分布密度曲線的峰凸程度,通常與正態分布相比較。峰度系數是隨機變量的四階中心矩與標準差的4次方的比率。峰度分為正態峰度、尖頂峰度和平頂峰度。對服從正態分布律的數據,峰度等于或接近3。超額峰度(excess kurtosis)等于,定義超額峰度就是將其更好的與0作比較。
峰度一詞則是由統計學家卡爾·皮爾遜(Karl Pearson)于1905年首次提出的,是對數據分布平峰或尖峰程度的一種測度。測度峰度的統計量是峰度系數,記作K。在這之前,丹麥的特爾巴德·尼古拉·提勒(1838~1910)比卡爾·皮爾遜更早就已經開始研究峰度相關理論概念,但沒有為偏度、峰度單獨命名。
峰度系數與偏度系數是概率統計中度量隨機變量密度曲線的重要特征量。在實際統計分析中,通常將偏度和峰度結合起來運用,以判斷樣本變量分布是否接近于正態分布。在實際中一個分布的偏度與峰度皆為0或近似為0時,常認為該分布為正態分布或近似為正態分布。關于這2個特征量的研究不僅在數理統計學中得到廣泛的關注,而且被運用到金融風險管理與決策、樣本分析、審計預測等方面。
定義
峰度(kurtosis)亦稱峭度、峰態、峰態系數等,是對統計數據分布陡峭程度的度量。用于判斷隨機變量分布密度曲線的峰凸程度,通常與正態分布相比較。峰度系數是隨機變量的四階中心矩與標準差的4次方的比率,計算公式為:
峰度分為正態峰度、尖頂峰度和平頂峰度。可以證明,對服從正態分布律的數據,峰度等于或接近3。對絕大多數不服從正態分布律的數據,有這樣的經驗結果:當分布曲線較正態分布更加“陡峭”時,,并稱為尖頂峰度;當分布曲線較正態分布“平坦”時,,并稱為平頂峰度。一般來說,的值越大,則圖形越陡峭,的值越小,則圖形越平坦。
提出歷史
峰度一詞則是由統計學家卡爾·皮爾遜(Karl Pearson)于1905年首次提出。是對數據分布平峰或尖峰程度的一種測度。測度峰度的統計量是峰度系數,記作。但是丹麥的特爾巴德·尼古拉·提勒(1838~1910)比卡爾·皮爾遜更早就已經開始研究有關“傾斜的”分布,尤其在相關的累積量這一概念上,提勒甚至早于英國的統計學。從1889年提勒的論文中得知,對于平均差、方差、偏度、峰度等“傾斜的”分布的特征值他已經導入了與現代一致的內容,但沒有為偏度、峰度單獨命名。
表現形態
標準峰度
對服從正態分布律的數據,峰度等于或接近3,稱為標準峰度;當次數分布為正態分布曲線時,。以此為標準就可比較分析各種次數分布曲線的峰度。
尖頂峰度
變量值的次數在眾數周圍分布比較集中,使次數分布曲線比正態分布曲線頂峰更為隆起尖峭,稱為尖頂峰度;,表示分布曲線呈尖頂峰度,為尖頂曲線,說明變量值的次數較為密集地分布在眾數的周圍,且β值越大,分布曲線的頂端越尖峭。
平頂峰度
變量值的次數在眾數周圍分布較為分散,使次數分布曲線較正態分布曲線更為平緩,稱為平頂峰度。,表示分布曲線呈平頂峰度,為平頂曲線,說明變量值的次數分布比較均勻地分散在眾數的兩側,且值越小,分布曲線的頂峰就越平緩。一般當值接近于1.8時,分布曲線呈水平矩形分布形態,說明各組變量值的次數相同。當值小于1.8時,次數分布曲線趨向“U”型分布。
計算方法
峰度系數一般都采用四階中心矩與標準差四次方的比值來度量數據平峰或尖峰形態偏離正態分布的程度。四階中心矩為變量與其均值離差四次方之和的均值。這些均值、標準差等統計參數可用參數估計方法去獲得,最后計算出峰度系數。各種估計方法如下:
點估計
當未知參數是數軸上的一個點,用估計量去估計參數,相當于用一個點估計另一個點,所以這樣的估計稱為點估計。
最大似然估計法
最大似然估計將求解似然函數取得最大值時的參數值作為估計量,且此處的參數是一個未知的確定量,而不是一個隨機量。最大似然估計的基本原理是:為了最大可能地獲得樣本集,且代表獲得樣本集的概率,只有當取得最大值時,才能使得該可能性最大,此時使得取得最大值的就是的最大似然估計。
皮爾遜矩估計法
在利用樣本所提供的信息對總體分布中的未知參數作估計時,可以用樣本矩作為相應的總體矩的估計,也可以用樣本矩的某一函數作為總體矩的同一函數的估計,這種參數估計方法稱為矩估計法,簡稱為矩法,由此所得的估計量稱為矩估計量。
超額峰度
定義
超額峰度(excess kurtosis)等于,表示分布比正態分布陡峭或者平坦的程度。定義超額峰度就是與0作比較,正態分布的超峰度為0,稱為常峰態;如果超額峰度大于0,就表示高峰;如果超額峰度小于0,就表示低峰。故而超額峰度=樣本峰度-3。
高峰肥尾
“高峰肥尾”就是說如果某個分布它是高峰的話,那它必然是肥尾。肥尾就是說某個分布的尾巴這個地方要比正態分布的厚。假設這組數據的方差和正態分布的是一樣的,也就是說離散程度是一樣的。但是,這組數據是高峰的,說明這組數據中間的數據就比較集中。中間的數據比較集中,總體的離散程度相同,那就說明這組數據的分布的尾巴部分的離散程度就肯定比較分散。所以,尾巴部分的數據肯定就比較多,那這樣就會造成高峰肥尾。
樣本峰度
樣本峰度反映了總體分布密度曲線在其峰值附近的陡峭程度。正態分布的峰度為3,若樣本峰度大于3,則說明總體分布密度曲線在其峰值附近比正態分布來得陡;若樣本峰度小于3,則說明總體分布密度曲線在其峰值附近比正態分布來得平緩。峰度是用四階矩定義的,對于任意一組單峰分布的數據 ,樣本峰度的計算公式為:
圖解示例
常見的概率分布分為離散概率分布和連續分布。其中常見的離散概率分布包括二項分布、泊松分布、幾何分布;連續分布包括均勻分布、正態分布、分布、分布、分布、指數分布等。峰度衡量實數隨機變量概率分布的峰態峰度高就意味著方差增大是由低頻度的大于或小于平均值的極端差值引起的。高斯分布的峰度為0。峰度大于0的分布也被稱為超高斯分布,峰度小于0的分布被稱關亞高斯分布。圖中紅色曲線表示拉普拉斯分布,峰度為3;橙色曲線表示雙曲線正割分布(Hyperbolic Secant distribution),峰度為2;綠色曲線表示Logistic 分布,蜂度為1.2;黑色曲線表示高斯分布,峰度為0;藍色曲線表示升余弦分布(Raised Cosinedistribution),峰度為-0.59376;藍色曲線表示 Wigner 半圓分布,峰度為-1;品紅色曲線為均勻分布,峰度為-1.2。
皮爾遜Ⅲ型分布曲線圖(伽馬分布)
英國生物學家卡爾·皮爾遜通過大量的分析研究,提出一種概括性的曲線族,包括13種分布曲線,其中第Ⅲ型曲線被引入水文計算中,成為當前水文計算中常用的頻率曲線。皮爾遜Ⅲ型曲線是一條一端有限,一端無限的不對稱單峰,正偏曲線(見圖),數學上稱伽馬分布。
皮爾遜相關系數分布圖—電力
基于皮爾遜相關系數融合密度峰值和熵權法的有效性,分別與基于歐式距離融合密度峰值和熵權法和應用最為廣泛的傳統K-means聚類方法進行對比分析。基于皮爾遜相關系數的后向場景縮減算法對5個光伏聚類簇進行場景縮減,獲取的5個典型光伏場景。獲取的5個典型風電場景圖形差異不大,出力峰值集中在中午時段。伽馬分布。
正態分布曲線
正態分布曲線正態分布密度的圖形稱作正態分布曲線:曲線關于直線對稱;參數μ決定曲線的位置,參數決定曲線的形態;曲線和橫坐標軸所夾面積等于1,曲線和任意區間所夾的面積恰好等于隨機變量X在該區間取值的概率。該圖像符合峰度曲線。
拉普拉斯分布曲線圖
皮埃爾-西蒙·拉普拉斯分布通常又被稱為拉普拉斯第一錯誤定律,由拉普拉斯于1774年提出,用于描述錯誤出現的頻率和誤差之間的函數關系。假設X服從參數為的拉普拉斯分布,其密度函數為:
其中為位置參數,為尺度參數。拉普拉斯分布的密度函數是不光滑的函數。
柯西分布曲線圖
柯西分布(Cauchy distribution)是以奧古斯丁-路易·柯西與亨德里克·洛倫茲名字命名的連續概率分布,也稱柯西一洛倫茲分布。柯西分布在物理學中十分重要。它不僅是描述受迫共振的微分方程的解,而且在光譜學中也用于描述被共振或者其他機制加寬的譜線形狀。其概率分布函數是:
柯西分布曲線的形狀也是倒鐘形,如不與正態曲線比較會誤以為是正態曲線。將標準正態曲線與標準柯西分布曲線比較可見:柯西分布的峰較標準正態分布低,而其尾側下降到0的速度遠比正態曲線緩慢。
威布爾分布曲線圖
變換后的威布爾分布是指數分布,則對威布爾分布的判斷可以轉換為對指數分布的判斷,其前提是要對隨機變量進行冪變換。威布爾分布密度函數具有以下形式:
由圖可知,形狀參數可以改變密度函數分布的形狀:小于1時,密度單邊下降拖尾;等于1時為指數分布;大于1時,呈現單峰分布,隨著參數的上升,峰高不斷上升。
正弦壓力分布曲線圖
許多工程力學問題由于計算規模過大而得不到解。在此,針對實際問題的需要,推導出厚壁圓筒受正弦分布壓力的解析解。不同的外半徑建立相應的位移函數、應力函數。這里,將這種隨外半徑,而變化的位移函數、應力函數稱為變位移函數、應力函數。下圖為正弦壓力分布圖。
t分布曲線圖
t的概率分布曲線與標準正態分布曲線相似,也是鐘形對稱的,中心最高,兩邊迅速下降,兩端向無窮延伸。在抽樣分布中統計量與對應的的差別在于的分母(標準誤)是由樣本資料估計的,而Z的分母(標準誤)是由總體參數得到的。
F分布曲線圖
設有兩個總體X、Y,已知,并且與相互獨立,則稱隨機變量是服從第一自由度為,第二自由度為的分布。分布的形狀會隨所包含的兩個自由度的不同而有所不同。
泊松分布曲線圖
泊松分布(Poisson 廣義函數)是一種重要的離散型分布,若離散型隨機變量可取一切自然數值,且有,則稱服從參數的泊松分布,其中,是自然對數的底,此分布的平均值,標準差。
二項分布曲線圖
只有兩個可能結果的試驗稱為雅各布·伯努利試驗。記出現事件為成功,出現的反面為失敗,滿足。若試驗重復次,每次事件出現概率均保持不變,則稱這種試驗為重伯努利試驗。在重伯努利試驗中,記為事件出現的次數,則的分布列為:,其中。這個分布稱為二項分布,記為。
均勻分布曲線圖
均勻分布是一種常見的連續型隨機變量分布,即隨機變量在確定的區間中,所取得每個值具有等可能性的分布。
若是兩個有限數,且隨機變量的密度函數為: 則稱服從上的均勻分布,記為。
相關概念
偏度
在實際統計分析中,通常將偏度和峰度結合起來運用,以判斷變量分布是否接近于正態分布。偏度亦稱“偏斜度”“偏態系數”,是對統計數據分布偏斜程度的度量,是描述分布非對稱程度的數字特征。偏度(skewness)是利用三階矩來定義的,對于任意一組數據
,稱為其偏度。分布的偏斜有右偏(亦稱正偏)和左偏(亦稱負偏)兩種情形對絕大多數非對稱分布數據而言,若右偏,即較小的數據比較集中時,;若左偏,即較大數據比較集中時,則。
矩
在力學和物理學中,用矩(moments)來描繪質量的分布。例如,一階矩是重心一質量分布的中心位置。統計學中,矩用來描繪數據的分布,如平均數是一階矩,它是數據分布的中心位置。方差、平均離差等也都是矩,變異系數也是通過矩來計算的。因此矩是描繪數據分布特點的一類數字特征,統計數據的許多數字特征是通過矩來定義的,在理論研究和實際應用中都具有十分重要的作用。常用的矩有原點矩(origin-moment)和中心矩(central-moment)兩大類。
最大熵
華盛頓大學的物理學家杰恩斯(E.T.Jaynes )在1957年提出了一種推理觀點:在只掌握部分信息的情況下要對系統狀態進行推斷時,我們應該取符合約束條件但熵值取最大的狀態作為一種合理狀態。熵與用相對頻率計算的樣本或在特殊類型中作為它們概率的非偏估計發生的數目有關。熵的基本函數也不僅限于離散的線性、分數形式的頻率、幾率、概率。典型的幾種常見約束條件下最大信息熵函數如幾率分布、均勻分布、指數分布、高斯(正態)分布、幾何分布、韋伯分布、混沌狀態下熵分布函數和模糊不確定狀態下模糊熵分布函數等都可以描述系統各種信息變量的屬性。gaussian(正態)分布是最大熵分布。
統計量
通常根據樣本的實際數值計算一些統計量,這些統計量稱為樣本統計量。表示在計算樣本統計量時,并沒有利用統計分布的有關參數,只是利用了實際可得到的樣本數據值,期望通過這些樣本統計量可推斷總體分布的有關參數值。
樣本均值定義
假設我們得到隨機變量X的N個樣本xi,樣本均值定義為:
樣本眾數、樣本中位數及樣本百分位數
在得到隨機變量X的N個樣本后,我們可以按照這些樣本出現的頻率繪出頻率分布圖。根據該圖,可以找出頻率出現最多的樣本點,這個樣本點就是樣本眾數。如果在頻率分布圖上畫一條豎線,樣本在該豎線兩邊出現的頻率是相等的,那么這條豎線對應的數值就是樣本的中位數。如果在頻率分布圖上畫一條豎線,樣本在該豎線左邊出現的頻率為p%,那么這條豎線對應的數值就是樣本的第p百分位數。
樣本方差和標準差
樣本標準差的計算公式是:
樣本協方差及樣本相關系數
對于兩個隨機變量X、Y的N個樣本,樣本協方差的計算公式是:
樣本相關系數的計算公式是:
相關應用
樣本分析
在實際統計分析中,通常將偏度和峰度結合起來運用,以判斷樣本變量分布是否接近于正態分布。在實際中一個分布的偏度與峰度皆為0或近似為0時,常認為該分布為正態分布或近似為正態分布。通常假設樣本的分布屬于正態分布,因此需要用偏度和峰度來檢查樣本是否符合正態分布。偏度衡量的是樣本分布的偏斜方向和程度,而峰度衡量的是樣本分布曲線的尖峰程度。由偏度檢驗的正態分布常用于近似描述一些生產與科學實驗中隨機變量的概率分布,還有一些常用的概率分布是直接由正態分布導出的,例如對數正態分布,分布、分布和分布。當峰度指標β>3,表示分布比正態分布更集中在平均數周圍,分布呈尖峰狀態;β=3,分布為正態分布;β<3,表示分布比正態分布更分散,分布呈低峰狀態。峰度指標的形態如圖所示。
金融投資領域
傳統的均值·方差模型是在一定的期望收益水平下使得方差最小化,或者在一定的方差條件下使得期望收益最大化,而峰度可以理解為對一個投資中賭博成分高低的衡量。因為極端結果發生的概率越高,該項投資就越像是一個純粹的賭博。因此,對于長線投資者來說,各種因素作用后的綜合性結果極其重要。正因為如此,大部分投資者都希望峰度能夠盡可能地低。因此,分布模型是在方差和峰度一定的條件下使得期望收益最大化。模型如下:
審計領域
審計人員可以用峰度分析來確定被審計單位的數據是否存在異常。例如,正常情況下,某單位的人員月工資以3000元為中心呈正態分布。審計人員通過檢查被審計單位的工資,發現了顯著的尖頂峰度,即每人工資非常集中在一定數額,低于或高于此金額的很少,則可判斷該單位有可能出現假賬,即該工資費用是專門用來對付審計或稅務檢查的,以減少個人所得稅的繳納等。
參考資料 >
描述統計量分析.中國大百科全書.2024-02-26
正態分布.中國大百科全書.2024-02-26