泊松回歸(英語:西莫恩·泊松 regression)是用來為計(jì)數(shù)資料和列聯(lián)表建模的一種回歸分析。
泊松回歸模型
代表由一組相互獨(dú)立的變量組成的向量,其泊松回歸的模型形式為:
亦可簡潔表示為:
此處,是 維的向量,由 個(gè)獨(dú)立變量(自變量向量)一個(gè)常向量(元素取值全為1)構(gòu)成,用一個(gè) θ代表第一個(gè)表達(dá)式當(dāng)中的 α和 β。
因此,當(dāng)已知泊松回歸模型當(dāng)中的 θ和解釋變量,其滿足泊松分布的被解釋變量的期望值可以由下式來預(yù)測:
是被解釋變量的觀測值,相應(yīng)的解釋變量為 ,可由極大似然估計(jì)(Maximum Likelihood estimation)的方法來估計(jì)參數(shù) θ。極大似然估計(jì)不能通過解析表達(dá)式獲得解析解,是由其對數(shù)似然函數(shù)為凸函數(shù)的特性,可通過Newton–Raphson 或其他基于梯度下降的思想方法來進(jìn)行參數(shù)估計(jì)。
極大似然估計(jì)
如上所述,已知泊松回歸模型當(dāng)中的 θ和解釋變量 , 其回歸表達(dá)式為:
泊松分布的概率密度函數(shù)為:
現(xiàn)已知解釋變量的觀測值為由 m個(gè)向量組成 對應(yīng) m個(gè)被解釋變量的觀測值, . 若同時(shí)已知 θ, 則該組觀測值所對應(yīng)的聯(lián)合概率可由下式表達(dá):
極大似然方法估計(jì) θ的核心思想是,去找到能使得基于當(dāng)前觀測值的聯(lián)合概率盡可能達(dá)到最大的 θ。(可理解為:變量的取值當(dāng)前觀測值,與取值為其他任何數(shù)值相比,是發(fā)生概率最高的事件)。既然目標(biāo)是尋找到最優(yōu)的 θ,可以先將上式的等號左邊簡單表達(dá)為關(guān)于 θ的表達(dá)式:
注意等號右邊的表達(dá)式并未改寫,但通常難于付諸計(jì)算,因而采用其對數(shù)變化后的表達(dá)式( log-likelihood)即:
由于 θ僅出現(xiàn)在似然函數(shù)的前兩項(xiàng),因而在極大化似然函數(shù)的運(yùn)算過程中,可以只考慮前兩項(xiàng)。可以刪去第三項(xiàng) ,待優(yōu)化的似然函數(shù)可以簡潔表達(dá)為:
為了找到極大值,需要求解方程:
可以通過對其似然函數(shù)取負(fù)值(negative log-likelihood),
是一個(gè)凸函數(shù), 標(biāo)準(zhǔn)的凸優(yōu)化方法可以考慮來求解θ的最優(yōu)值。統(tǒng)一的方法是Newton-Raphson 與Iterative Weighted Least 史克威爾(IWLS)算法。給θ一組初始值,IWLS 是通過多次迭代更新直到θ收斂。
簡介
泊松回歸,并假設(shè)它期望值的對數(shù)可被未知參數(shù)的線性組合建模。泊松回歸模型有時(shí)(特別是當(dāng)用作列聯(lián)表模型時(shí))又被稱作對數(shù)-線性模型。
2014年巴西世界杯,所有的數(shù)據(jù)分析專家都以數(shù)據(jù)為準(zhǔn),分析員最后都會(huì)將其整合成模型。通常情況下,建模人員會(huì)把問題從“哪一支隊(duì)伍會(huì)勝出”改為“X隊(duì)和Y隊(duì)比賽,X隊(duì)會(huì)進(jìn)多少個(gè)球”,這里使用到的是一種名為“雙變量泊松回歸分析法”(bivariate Poisson regression)。
“雙變量”指的是,在做出某個(gè)單一結(jié)果的預(yù)測時(shí)需要參考兩個(gè)相互影響的因素,比如一場比賽中的X隊(duì)和Y隊(duì)的表現(xiàn)。“回歸分析法”指將即有數(shù)據(jù)填充到模型中去。而“泊松分布”則是很有趣的分析方法。
試想像,你站在路旁,想要知道一分鐘會(huì)有多少汽車急馳而過。首先,你必須收集數(shù)據(jù)。利用秒表和計(jì)數(shù)器,第一分鐘,假設(shè)有15輛車駛過;第二分鐘,18輛;而下一分鐘只有4輛。持續(xù)記錄下去,你就可以得到一個(gè)模型,這便是“泊松分布”的原型。這項(xiàng)分析方法是由法國數(shù)學(xué)家西莫恩·泊松提出,用于估測人們做出錯(cuò)誤判斷的幾率。
根據(jù)泊松分布,足球比賽的結(jié)果同樣具有分散性。一支足球隊(duì)進(jìn)1或2個(gè)球的可能性最大,其次為不進(jìn)或者進(jìn)3個(gè),而進(jìn)4或5個(gè)球(或者更多)的幾率則大大下降。于是建模人員會(huì)根據(jù)這支隊(duì)伍之前的表現(xiàn),通過泊松分布制圖,預(yù)測出它們之后得分的情況。
案例分析
觀眾們就開始預(yù)測結(jié)果并且在體育賽事上投下賭注;而近些年,一種與眾不同的數(shù)據(jù)分析法逐漸雄踞賽事預(yù)測市場。高盛,彭博以及納特·西弗的538(Five Thirty Eight)官網(wǎng)都利用數(shù)據(jù),來對比賽的結(jié)果做出最為準(zhǔn)確。高盛預(yù)測本土作戰(zhàn)的巴西有的幾率拿下冠軍;538給出的幾率是,而彭博認(rèn)為巴西奪冠的幾率僅僅只有。
參考資料 >
數(shù)學(xué)世界杯:泊松分布預(yù)測巴西世界杯冠軍.新浪網(wǎng).2014-06-17