必威电竞|足球世界杯竞猜平台

分位數
來源:互聯網

分位數(英文:quantile),亦稱分位點、臨界值,其定義為:將一組按大小順序排列的數值分成若干等份,處于各等份分界點上的數值,稱為分位數。

統計作為一種社會實踐活動有著悠久的歷史,早在公元前兩千多年,人們就已經對人口數量進行過統計和記載。而統計學作為一門統計實踐活動的經驗和理論的學科,已有了三百多年的發展歷史。1809年,德國約翰·卡爾·弗里德里希·高斯(C.F.Gauss)在著作《天體沿圓錐曲線的繞日運動理論》中闡述了預測天體軌道的方法,首次發表了最小二乘法。1889年,弗朗西斯·高爾頓(Francis Galton)在著作《自然的遺傳》中提出了相關性概念,明確給出了“生物統計學”名詞以及中位數、分位數的概念。1978年,美國計量經濟學家羅杰·克昂克(Roger Koenker)和巴賽特(Bassett GilbertJr)提出了分位數回歸的思想,該方法對最小二乘回歸做了改進。進入21世紀,分位數回歸分析有了進一步的發展。2012年,梁烏娜-阿爾瓦雷茲(U?a-álvarezz)等人在相依假設下,基于經驗似然方法,構造了條件分位數的置信區間。2017年,安德里亞娜(Andriyana)和伊雷娜·吉貝爾斯(Irène Gijbels)給出條件分位數函數以及異方差函數的估計,同時用模擬研究進行驗證,進一步推廣了分位數的相關理論。

分位數具有多種類型,如中位數、四分位數等,它與平均數有著密切的聯系,其中,平均數與中位數的差值不會超過一個標準差。分位數計算是大數據集和數據流上經常使用的一種統計方法,在常見的概率分布和統計分布中,如正態分布、卡方分布等也會涉及到分位數計算。此外,該概念在現實世界中具有廣泛的應用價值,如在金融學中,基于分位數預測回歸模型的股票市場風險方法,能更加全面地對股票市場風險的影響因素進行分析,有助于防范與控制市場風險。

定義

分位數將一組按大小順序排列的數值分成若干等份,處于各等份分界點上的數值,即為分位數。它可用于說明資料的分布情況和測定各數值間的差異程度。

數學定義:設連續型隨機變量的分布函數為,密度函數為。對任意的,稱滿足條件

的為此分布的分位數,又稱下側分位數。同理,稱滿足條件

的為此分布的上側分位數。上側分位數與分位數是可以相互轉換的,其轉換公式為

,。

分位數是把密度函數下的面積分為兩塊,左側面積恰好為,如圖;上側分位數也是把密度函數下的面積分為兩塊,但右側面積恰好為,如圖。

簡史

早期研究

統計作為一種社會實踐活動有著悠久的歷史,早在公元前兩千多年,人們就已經對人口數量進行過統計和記載。統計一詞的英文為統計學,跟state(國家)一詞來自同一詞源。統計學作為一門統計實踐活動的經驗和理論的學科,也有了三百多年的發展歷史。1809年,德國約翰·卡爾·弗里德里希·高斯(C.F.Gauss)在著作《天體沿圓錐曲線的繞日運動理論》中闡述了預測天體軌道的方法,首次發表了最小二乘法,并于1822年指出該方法是回歸分析中的最優方法。1889年,英國統計學家弗朗西斯·高爾頓(Francis Galton)在其著作《自然的遺傳》中提出了相關性概念,構造了回歸分析方法,并明確給出了“生物統計學”的名詞以及中位數、分位數等概念。

后續發展

1978年,美國計量經濟學家羅杰·克昂克(Roger Koenker)和巴賽特(Bassett Gilbert Jr)提出了分位數回歸的思想,它依據因變量的條件分位數對自變量進行回歸,得到了所有分位數下的回歸模型。相比普通最小二乘回歸,分位數回歸更能精確地描述自變量對于因變量的變化范圍以及條件分布形狀的影響。1993年,格勒(Gürler)等人在原始樣本獨立的情形下,獲得了分位數函數的表示形式及其漸近正態性。21世紀以來,分位數回歸分析有了進一步的發展。2012年,梁烏娜-阿爾瓦雷茲(U?a-álvarezz)等人在相依假設下,基于經驗似然方法,構造了條件分位數的置信區間。2015年,王江峰等人在左截斷數據下,利用局部多項式方法,研究了誤差具有異方差結構的非參數回歸模型,構造了回歸函數的復合分位數回歸估計,并得到了該估計的漸近正態性結果。2017年,安德里亞娜(Andriyana)和伊雷娜·吉貝爾斯(Irène Gijbels)在誤差是異方差結構下研究了變系數模型的分位數回歸問題,給出條件分位數函數以及異方差函數的估計,同時用模擬研究進行驗證,進一步推廣了分位數的相關理論。

常見類型

中位數

定義:中位數是位置平均數,若將變量值按大小順序排列,處于中間位置的變量值即為中位數。中位數把全部的變量值分成兩部分:一半的變量值比它大,一半的變量值比它小。中位數是位置平均數,不受極端數值的影響,在有個別極端數值存在的數列中,中位數的代表性比算術平均數的代表性強。

設連續型隨機變量的分布函數為,密度函數為,稱時的分位數為次分布的中位數,即滿足

且中位數的位置常在分布的中部。

計算公式:中位數的計算公式為:當為奇數時,;當為偶數時,。

中位數的漸進分布:在總體為連續型且概率密度為對稱的情形,常用樣本中位數來估計總體均值:

由于正態總體的樣本中位數漸進地服從正態分布,因而對于正態總體,用來估計是適合的。但是,當總體為離散型時,樣本中位數不服從正態分布。

四分位數

定義:在統計實踐過程中,經常需要將一組數據分成等份,把這些等份點上的數值稱為分位數。若分為個、個、個相等部分,則分位點上的數就相應稱為四分位數、十分位數、十六分位數,那么,要將整個數據分成等份,只需要個分點。四分位數也可以理解成將一組數據經過排序以后處于位置上的數值,這三個數值從小到大依次稱為第一四分位數、第二四分位數與第三四分位數或者下四分位數、中四分位數、上四分位數,且中四分位數就是中位數。

計算公式:將數據排序后,位置,位置。

舉例 某年某省個地市人均GDP(元)從小到大排列如下,要求計算四分位數。

解:下四分位數的位置;

中位數的位置;

上四分位數的位置。

計算結果表明,下四分位數為元,中位數為元,上四分位數為元。

百分位數

定義:百分位數又稱百分位分數,是一種相對地位量數,它是次數分布中的一個點。把一個次數分布排序后,分為個單位,百分位數就是次數分布中相對于某個特定百分點的原始分數,它表明在次數分布中特定個案百分比低于該分數。百分位數用加下標(特定百分點)表示。

計算公式:,,其中,指第百分位數;指所在組的組實下限;指所在組的組實上限;指所在組的次數;指小于的累積次數;指大于的累積次數。

常用結果

正態分布

定義:若隨機變量的密度函數為

其中,與為常數,則稱服從正態分布,記為。特別地,當時,稱服從標準正態分布,記為。

標準正態分布的分位數:由于標準正態分布函數

不含參數,又是嚴增函數,故其分位數可由其反函數表示,且標準正態分布的分位數可由分位數表查得。

一般正態分布的分位數:若,則,故一般正態分布的分位數是下列方程:

的解,其解為

其中為標準正態分布的分位數。

卡方分布

定義:若個相互獨立的隨機變量點均服從標準正態分布,則稱服從參數(自由度)為的分布,記為。卡方分布的密度函數為

卡方分布的分位數:對于分布的分位數,應滿足條件

當較小時,其值可通過查卡方分布分位數表得出;當時,有

于是,只要查正態分布表,就可得到分布分位數的近似值。

t分布

定義:設隨機變量,且隨機變量相互獨立,則稱隨機變量

為服從自由度為的分布,記為。

分布的分位數:對自由度為的分布,用表示其分布的分位數,即

由于分布的概率密度函數圖形關于軸對稱,因此有。

F分布

定義:設隨機變量相互獨立,且,則稱隨機變量

為服從自由度為的分布,記作,其中為第一自由度,為第二自由度。由定義可知,若,則。

分布的分位數:對自由度為的分布,用表示其分布的分位數,即

由可得

相關算法

分位數計算是大數據集和數據流上經常使用的一種統計方法。設是按遞增序排序的數據,使得是最小的觀測值,而是最大的觀測值。每個觀測值與一個配對,指出大約的數據小于或等于,則是相應于的分位數。

NORMAL

算法 NORMAL 是一種單遍掃描的、聯機的分位數近似算法,其時間和空間復雜度均線性于概要結構中桶的個數,而與數據流的長度無關。

基本思想:算法 NORMAL 可分為兩個過程:

(1)基于規范數直方圖 Nord-Histogram 的概要結構的構建與更新。

(2)Nord-Histogram 上的分位數計算。

在過程(1)中,令表示概構跨度,取決于內存容量的限制,其上下界分別表示為和。數據流元素的最大與最小值分別表示為和。為內的每個值創建一個。每當一個新的數據元素到達,計算出其相應的,同時更新其對應的規范桶,從而及時得到更新的 Nord-Histogram。過程(2)計算分位數值的時間復雜度為,而空間復雜度為。·綜合過程(1)和過程(2),基于規范數直方圖 Nord-Histogram 的分位數近似算法的時間和空間復雜度均為與數據流的長度無關,因而可以實現數據流的及時查詢計算。

t-Digests

t-Digest 是一種用于近似計算大型數據集的算法,它通過對實值樣本進行聚類,并保留每個聚類的均值和樣本數來生成的。該聚類方法可以用來估計分位數相關的統計量。該算法將原始數據分成若干個區間,并為每個區間分配一個權重,通過使用權重,可以近似計算原始數據的各種統計量。

KLL Quantile

KLL Quantile 是一種用于計算數據流中近似分位數的算法,它通過獲取一個空間數據草圖和匹配的下界,解決了數據流計算模型中分位數草圖的最佳結構問題,證明了隨機分位數和準確分位數的數據草圖之間的性質差距。

推廣

分位數估計提供了隨機變量方差計算的非參數方法,除了假定該分布在預測階段仍然成立以外,它不對組合的收益率作具體的分布假定。分位數回歸是分位數估計方法之一。

分位數回歸模型

基本思想:傳統的最小二乘回歸模型考察的是隨機變量平均數與解釋變量的關系。分位數回歸是以古典條件均值模型為基礎的最小二乘法的延伸,它用幾個分位函數來估計整體模型。該方法不僅能夠度量回歸變量對因變量分布中心的影響,而且能度量回歸變量對分布上尾和下尾的影響,比經典的最小二乘回歸法更具有優勢。

設為實值隨機變量,其分布函數為,則對于任意的,有:

稱式為的分位數,當時,即為中位數。在分位數回歸模型中,定義損失函數為分段線性函數:

其中為指示函數。在決策理論中,損失函數不同,決策內容亦不同。求損失函數期望的最優化問題可以表示為

對求一階導數,得

由于為單調函數,因此滿足的任一元素都可以使期望損失最小。當解唯一時,;當有多個解時,取解區間的左端點,那么,引入損失函數可以求得分位數的點估計。考慮一個樣本,求它的概率水平的分位數問題可以轉換成下面的最優化問題:

給定信息集,的條件分位數函數可以表示為,系數向量的估計由

得到。式可以進一步寫作

可以看出系數向量的估計隨的變化而不同。分位數回歸的本質是通過在之間取值,調節回歸線(或者回歸平面)的位置和方向,以優化目標函數。

一般估計方法

分位數回歸法的特殊情況就是中位數回歸(最小一乘回歸),用對稱權重解決殘差絕對值之和最小化問題,而其他條件分位數回歸則需要用非對稱權重解決殘差絕對值之和的最小化。

類似理論

平均數

定義:平均數也稱均值,是一組數據相加后除以數據的個數得到的結果,樣本平均數是度量數據水平的常用統計量。

(1)未分組數據:設一組樣本數據為,樣本量(樣本數據的個數)為,則樣本平均數計算公式為:

它也稱為簡單平均數

(2)組距式分組數據:代表組數,各組的組中值分別用表示,各組的頻數分別用表示,則樣本平均數的計算公式為:

該平均數也表示加權平均數

聯系:設是隨機變量的分位數,其平均數為,方差為,則有

對于,如果且,則稱是隨機變量的分位數。

推論:中位數的上下限由下式確定

由式可知,中位數與平均數的差值不會超過一個標準差

應用

金融學

金融學中,股票市場風險是系統性金融風險的重要內容。股票市場風險的影響因素,除了市場之間的溢出效應外,還具有復雜性、多樣性。傳統的股票市場風險研究方法,主要基于單市場分析風險特征,對于股票市場的風險影響因素探究具有局限性。基于分位數預測回歸模型的股票市場風險方法,能更加全面地對股票市場風險的影響因素進行分析,并可以更好地幫助研究者和決策者發現市場風險的影響因素,有助于其防范與控制市場風險。

工程學

電力市場環境下,水電廠要綜合水電的經濟和技術特性,考慮上網競價過程中的各種不確定性因素,在多個時段和多個市場中對發電量進行分解和分配。而電量的時空分布計算常常呈現多期風險,即動態風險。針對水電在上網競價過程中面臨的各類營銷風險,可以采用分位數的條件風險價值方法,以各期分位數的條件風險價值的絕對偏差加權和最小為目標函數建立數學模型,能有效地衡量各類風險,增強風險度量指標的可行性和實用性。

地理學

在全球應對氣候變化,并向低碳能源轉型的過程中,氣候政策的不確定性越來越成為影響能源市場回報的重要因素。為了應對氣候變化的不確定性造成的經濟體系的風險問題,通過條件分位數向量自回歸模型構建基于不同條件分位數的溢出指數,可以分析氣候政策不確定性變化與能源市場收益率在整個條件分布上的關聯性和左右尾部的溢出特征,其結果顯示,通過增加氣候政策調整的彈性和透明度引導和穩定市場預期,可防范和化解氣候政策不確定性給能源市場帶來的風險溢出。

參考資料 >

生活家百科家居網