必威电竞|足球世界杯竞猜平台

最小二乘法
來(lái)源:互聯(lián)網(wǎng)

最小二乘法(又稱最小平方法)是一種最優(yōu)化技術(shù)。它通過(guò)最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡(jiǎn)便地求得未知的數(shù)據(jù),并使得這些求得的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間誤差的平方和為最小。最小二乘法還可用于曲線擬合。其他一些優(yōu)化問(wèn)題也可通過(guò)最小化能量或最大化用最小二乘法來(lái)表達(dá)。

特性

根據(jù)樣本數(shù)據(jù),采用最小二乘估計(jì)式可以得到簡(jiǎn)單線性回歸模型參數(shù)的估計(jì)量。但是估計(jì)量參數(shù)與總體真實(shí)參數(shù)的接近程度如何,是否存在更好的其它估計(jì)式,這就涉及到最小二乘估計(jì)式或估計(jì)量的最小方差(或最佳)(Best)性、線性(Linear)及無(wú)偏(Unbiased)性,簡(jiǎn)稱為BLU特性。這就是廣泛應(yīng)用普通最小二乘法估計(jì)經(jīng)濟(jì)計(jì)量模型的主要原因。下面證明普通最小二乘估計(jì)量具有上述三特性??。

1、線性特性

所謂線性特性,是指估計(jì)量分別是樣本觀測(cè)值的線性函數(shù),亦即估計(jì)量和觀測(cè)值的線性組合??。

2、無(wú)偏性

無(wú)偏性,是指參數(shù)估計(jì)量期望值分別等于總體真實(shí)參數(shù)??。

3、最小方差

所謂最小方差性,是指估計(jì)量與用其它方法求得的估計(jì)量比較,其方差最小,即最佳。最小方差性又稱有效性。這一性質(zhì)就是著名的高斯一馬爾可夫(Gauss-Markov)定理。這個(gè)定理闡明了普通最小二乘估計(jì)量與用其它方法求得的任何線性無(wú)偏估計(jì)量相比,它是最佳的??。

優(yōu)化問(wèn)題

在無(wú)約束最優(yōu)化問(wèn)題中,有些重要的特殊情形,比如目標(biāo)函數(shù)由若干個(gè)函數(shù)的平方和構(gòu)成,這類函數(shù)一般可以寫成??:

其中?,通常要求m≥n,我們把極小化這類函數(shù)的問(wèn)題??:

稱為最小二乘優(yōu)化問(wèn)題。最小二乘優(yōu)化是一類比較特殊的優(yōu)化問(wèn)題??。

基本思路

最小二乘法是解決曲線擬合問(wèn)題最常用的方法。其基本思路是:令?

其中,?是事先選定的一組與線性關(guān)系無(wú)關(guān)的函數(shù),?是待定系數(shù)?,擬合準(zhǔn)則是使?與?的距離?的平方和最小,稱為最小二乘準(zhǔn)則??。

基本公式

考慮超定方程組(超定指未知數(shù)小于方程個(gè)數(shù)):

其中m代表有m個(gè)等式,n代表有n個(gè)未知數(shù),m>n;將其進(jìn)行向量化后為:

,,

顯然該方程組一般而言沒(méi)有解,所以為了選取最合適的讓該等式"盡量成立",引入殘差平方和函數(shù)S

(在統(tǒng)計(jì)學(xué)中,殘差平方和函數(shù)可以看成n倍的均方誤差MSE)

當(dāng)時(shí),取最小值,記作:

通過(guò)對(duì)進(jìn)行導(dǎo)數(shù)求最值,可以得到:

如果矩陣非奇異則有唯一解:

原理

在我們研究?jī)蓚€(gè)變量(x,y)之間的相互關(guān)系時(shí),通常可以得到一系列成對(duì)的數(shù)據(jù)(x1,y1.x2,y2...xm,ym);將這些數(shù)據(jù)描繪在x-y直角坐標(biāo)系中,若發(fā)現(xiàn)這些點(diǎn)在一條直線附近,可以令這條直線方程如(式1-1)。(式1-1)

其中:a0、a1是任意實(shí)數(shù)

為建立這直線方程就要確定a0和a1,應(yīng)用《最小二乘法原理》,將實(shí)測(cè)值Yi與利用計(jì)算值Yj(Yj=a0+a1Xi)(式1-1)的離差(Yi-Yj)的平方和最小為“優(yōu)化判據(jù)”。

令:φ=(式1-2)

把(式1-1)代入(式1-2)中得:

φ=(式1-3)

當(dāng)最小時(shí),可用函數(shù)φ對(duì)a0、a1求偏導(dǎo)數(shù),令這兩個(gè)偏導(dǎo)數(shù)等于零。

∑2(a0+a1*Xi-Yi)=0(式1-4)

∑2Xi(a0+a1*Xi-Yi)=0(式1-5)

亦即:

na0+(∑Xi)a1=∑Yi(式1-6)

(∑Xi)a0+(∑Xi^2)a1=∑(Xi*Yi)(式1-7)

得到的兩個(gè)關(guān)于a0、a1為未知數(shù)的兩個(gè)方程組,解這兩個(gè)方程組得出:

a0=(∑Yi)/n-a1(∑Xi)/n(式1-8)

a1=[n∑(XiYi)-(∑Xi∑Yi)]/(n∑Xi^2-∑Xi∑Xi)(式1-9)

這時(shí)把a(bǔ)0、a1代入(式1-1)中,此時(shí)的(式1-1)就是我們回歸的一元線性方程即:數(shù)學(xué)模型

在回歸過(guò)程中,回歸的關(guān)聯(lián)式不可能全部通過(guò)每個(gè)回歸數(shù)據(jù)點(diǎn)(x1,y1.x2,y2...xm,ym),為了判斷關(guān)聯(lián)式的好壞,可借助相關(guān)系數(shù)“R”,統(tǒng)計(jì)量“F”,剩余標(biāo)準(zhǔn)差“S”進(jìn)行判斷;“R”越趨近于1越好;“F”的絕對(duì)值越大越好;“S”越趨近于0越好。

R = [∑XiYi - m (∑Xi / m)(∑Yi / m)]/ SQR{[∑Xi2 - m (∑Xi / m)2][∑Yi2 - m (∑Yi / m)2]} (式1-10)

在(式1-10)中,m為樣本容量,即實(shí)驗(yàn)次數(shù);Xi、Yi分別為任意一組實(shí)驗(yàn)數(shù)據(jù)X、Y的數(shù)值。

方法

以最簡(jiǎn)單的一元線性模型來(lái)解釋最小二乘法。什么是一元線性模型呢?監(jiān)督學(xué)習(xí)中,如果預(yù)測(cè)的變量是離散的,我們稱其為分類(如決策樹,支持向量機(jī)等),如果預(yù)測(cè)的變量是連續(xù)的,我們稱其為回歸。回歸分析中,如果只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。對(duì)于二維空間線性是一條直線;對(duì)于三維空間線性是一個(gè)平面,對(duì)于多維空間線性是一個(gè)超平面

對(duì)于一元線性回歸模型,假設(shè)從總體中獲取了n組觀察值(X1,Y1),(X2,Y2),…,(Xn,Yn)。對(duì)于平面中的這n個(gè)點(diǎn),可以使用無(wú)數(shù)條曲線來(lái)擬合。要求樣本回歸函數(shù)盡可能好地?cái)M合這組值。綜合起來(lái)看,這條直線處于樣本數(shù)據(jù)的中心位置最合理。選擇最佳擬合曲線的標(biāo)準(zhǔn)可以確定為:使總的擬合誤差(即總殘差)達(dá)到最小。有以下三個(gè)標(biāo)準(zhǔn)可以選擇:

(1)用“殘差和最小”確定直線位置是一個(gè)途徑。但很快發(fā)現(xiàn)計(jì)算“殘差和”存在相互抵消的問(wèn)題。

(2)用“殘差絕對(duì)值和最小”確定直線位置也是一個(gè)途徑。但絕對(duì)值的計(jì)算比較麻煩。

(3)最小二乘法的原則是以“殘差平方和最小”確定直線位置。用最小二乘法除了計(jì)算比較方便外,得到的估計(jì)量還具有優(yōu)良特性。這種方法對(duì)異常值非常敏感。

最常用的是普通最小二乘法(OrdinaryLeastSquare,OLS):所選擇的回歸模型應(yīng)該使所有觀察值的殘差平方和達(dá)到最小。(Q為殘差平方和)-即采用平方損失函數(shù)。

樣本回歸模型:

其中ei為樣本(Xi,Yi)的誤差。

平方損失函數(shù):

則通過(guò)Q最小確定這條直線,即確定β0和β1,把它們看作是Q的函數(shù),就變成了一個(gè)求極值的問(wèn)題,可以通過(guò)求導(dǎo)數(shù)得到。求Q對(duì)兩個(gè)待估參數(shù)的偏導(dǎo)數(shù)

根據(jù)數(shù)學(xué)知識(shí)我們知道,函數(shù)的極值點(diǎn)為偏導(dǎo)為0的點(diǎn)。

解得:

這就是最小二乘法的解法,就是求得平方損失函數(shù)的極值點(diǎn)。

公式

擬合

對(duì)給定數(shù)據(jù)點(diǎn)集合,在取定的函數(shù)類中,求,使誤差的平方和最小,。從幾何意義上講,就是尋求與給定點(diǎn)集的距離平方和為最小的曲線y=p(x)。函數(shù)p(x)稱為擬合函數(shù)或最小二乘解,求擬合函數(shù)p(x)的方法稱為曲線擬合的最小二乘法。

最小二乘法的矩陣形式

最小二乘法的矩陣形式為:

其中為的矩陣,為的列向量,為的列向量。如果(方程的個(gè)數(shù)大于未知量的個(gè)數(shù)),這個(gè)方程系統(tǒng)稱為矛盾方程組(OverDeterminedSystem),如果(方程的個(gè)數(shù)小于未知量的個(gè)數(shù)),這個(gè)系統(tǒng)就是UnderDeterminedSystem。

正常來(lái)看,這個(gè)方程是沒(méi)有解的,但在數(shù)值計(jì)算領(lǐng)域,我們通常是計(jì)算,解出其中的。比較直觀的做法是求解,但通常比較低效。其中一種常見(jiàn)的解法是對(duì)進(jìn)行QR分解(),其中是正交矩陣(OrthonormalMatrix),是上三角矩陣(UpperTriangularMatrix),則有

MATLAB命令

x=R\(Q\b)

可解得。

最小二乘法的Matlab實(shí)現(xiàn)

一次函數(shù)線性擬合使用polyfit(x,y,1)

多項(xiàng)式函數(shù)線性擬合使用polyfit(x,y,n),n為次數(shù)

擬合曲線

x=[0.5,1.0,1.5,2.0,2.5,3.0],

y=[1.75,2.45,3.81,4.80,7.00,8.60]。

解:MATLAB程序如下:

x=[0.5,1.0,1.5,2.0,2.5,3.0];y=[1.75,2.45,3.81,4.80,7.00,8.60];p=polyfit(x,y,2)x1=0.5:0.5:3.0;y1=polyval(p,x1);plot(x,y,'*r',x1,y1,'-b')

計(jì)算結(jié)果為:

p?=0.5614?0.8287?1.1560

即所得多項(xiàng)式為y=0.5614x^2+0.8287x+1.15560

③非線性函數(shù)使用

lsqcurvefit(fun,x0,x,y)a=nlinfit(x,y,fun,b0)

最小二乘法在交通運(yùn)輸學(xué)中的運(yùn)用

交通發(fā)生預(yù)測(cè)的目的是建立分區(qū)產(chǎn)生的交通量與分區(qū)土地利用、社會(huì)經(jīng)濟(jì)特征等變量之間的定量關(guān)系,推算規(guī)劃年各分區(qū)所產(chǎn)生的交通量。因?yàn)橐淮纬鲂杏袃蓚€(gè)端點(diǎn),所以我們要分別分析一個(gè)區(qū)生成的交通和吸引的交通。交通發(fā)生預(yù)測(cè)通常有兩種方法:回歸分析法和聚類分析法。

回歸分析法是根據(jù)對(duì)因變量與一個(gè)或多個(gè)自變量的統(tǒng)計(jì)分析,建立因變量和自變量的關(guān)系,最簡(jiǎn)單的情況就是一元回歸分析,一般式為:Y=α+βX式中Y是因變量,X是自變量,α和β是回歸系數(shù)。若用上述公式預(yù)測(cè)小區(qū)的交通生成,則以下標(biāo)i標(biāo)記所有變量;如果用它研究分區(qū)交通吸引,則以下標(biāo)j標(biāo)記所有變量。而運(yùn)用公式的過(guò)程中需要利用最小二乘法來(lái)求解,上述公式中的回歸系數(shù)根據(jù)最小二乘法可得:

其中,式中的X拔是規(guī)劃年的自變量值,Y拔是規(guī)劃年分區(qū)交通生成(或吸引)預(yù)測(cè)值。

參考資料 >

生活家百科家居網(wǎng)