畢業(yè)論文----測(cè)井時(shí)間序列的支持向量機(jī)回歸預(yù)測(cè)_第1頁(yè)
已閱讀1頁(yè),還剩49頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、<p>  測(cè)井時(shí)間序列的支持向量機(jī)回歸預(yù)測(cè)</p><p><b>  摘 要</b></p><p>  統(tǒng)計(jì)學(xué)習(xí)理論是針對(duì)小樣本情況下的機(jī)器學(xué)習(xí)理論,其核心思想是通過(guò)控制學(xué)習(xí)機(jī)器的復(fù)雜度實(shí)現(xiàn)對(duì)學(xué)習(xí)機(jī)器推廣能力的控制。支持向量機(jī)能夠盡量提高學(xué)習(xí)機(jī)的推廣能力,即使由有限數(shù)據(jù)集得到的判別函數(shù)對(duì)獨(dú)立的測(cè)試集仍能夠得到較小的誤差。因此,本文把支持向量機(jī)用于測(cè)井

2、時(shí)間序列的回歸預(yù)測(cè)。首先,介紹了時(shí)間序列和支持向量機(jī)的基礎(chǔ)理論。其次,詳細(xì)介紹了支持向量機(jī)的回歸原理和算法。最后,本文根據(jù)石油地質(zhì)勘探的實(shí)際問(wèn)題,將支持向量機(jī)運(yùn)用測(cè)井曲線預(yù)測(cè)儲(chǔ)層參數(shù)——孔隙度。結(jié)果表明,該方法預(yù)測(cè)精度高,方法穩(wěn)定有效。支持向量機(jī)較好的解決了小樣本測(cè)井勘探的實(shí)際問(wèn)題。</p><p>  關(guān)鍵詞:支持向量機(jī);時(shí)間序列;回歸預(yù)測(cè)</p><p>  Logging time

3、series support vector machine regression</p><p>  Abstract: Statistical theory is a case of machine learning theory which is based on small sample. It’s core idea is the machine by controlling the complexity

4、 of learning to achieve the promotion of the ability of learning machine control. Support vector machine to maximize the generalization ability of learning machine, even if a limited data set obtained from the discrimina

5、nt function on the independent test set will be smaller still error. Therefore, the support vector machine is usd to loggin</p><p>  Keywords:support vector machines;time series; regression</p><p&

6、gt;<b>  目 錄</b></p><p>  第1章 前 言1</p><p>  1.1 選題意義1</p><p>  1.2 研究現(xiàn)狀1</p><p>  1.3 論文內(nèi)容2</p><p>  第2章 測(cè)井時(shí)間序列3</p><p>

7、;  2.1 時(shí)間序列概述3</p><p>  2.2 時(shí)間序列的預(yù)測(cè)方法4</p><p>  2.2.1 時(shí)間序列線性預(yù)測(cè)方法4</p><p>  2.2.2 時(shí)間序列的非線性預(yù)測(cè)方法5</p><p>  2.2.3 自回歸移動(dòng)平均(ARMA)模型6</p><p>  2.2.4 季節(jié)

8、型模型10</p><p>  第3章 支持向量機(jī)的原理和方法11</p><p>  3.1 SVM的基本思想11</p><p>  3.1.1 最優(yōu)分類(lèi)面11</p><p>  3.1.2 廣義的最優(yōu)分類(lèi)面13</p><p>  3.2 支持向量回歸14</p><p

9、>  3.2.1 SVM回歸原理14</p><p>  3.2.2 線性支持向量回歸14</p><p>  3.2.3 非線性支持向量回歸15</p><p>  3.2.4 支持向量回歸16</p><p>  3.2.5 v-支持向量回歸18</p><p>  3.2.6 時(shí)間序列

10、分析19</p><p>  3.3 支持向量算法20</p><p>  3.3.1 支持向量機(jī)的訓(xùn)練算法20</p><p>  3.3.2 C-SVM算法及其變形算法21</p><p>  第4章 測(cè)井時(shí)間序列的支持向量機(jī)回歸預(yù)測(cè)25</p><p>  4.1 引言25</p>

11、<p>  4.2 應(yīng)用實(shí)例26</p><p><b>  結(jié) 論42</b></p><p><b>  致 謝43</b></p><p><b>  參考文獻(xiàn)44</b></p><p><b>  第1章 前 言</b&

12、gt;</p><p><b>  1.1 選題意義</b></p><p>  本課題的主要目的是研究支持向量機(jī)預(yù)測(cè)儲(chǔ)層巖性參數(shù)問(wèn)題。在估計(jì)孔隙度的過(guò)程中,測(cè)井的數(shù)目往往是固定且有限的,支持向量機(jī)在解決小樣本問(wèn)題中表現(xiàn)出許多特有的優(yōu)勢(shì)SVM方法的幾個(gè)主要優(yōu)點(diǎn)有:</p><p>  1.是專(zhuān)門(mén)針對(duì)有限樣本情況的,其目標(biāo)是得到現(xiàn)有信息下的最優(yōu)

13、解而不僅僅是樣本數(shù)趨于無(wú)窮大時(shí)的最優(yōu)值;</p><p>  2.算法最終將轉(zhuǎn)化成為一個(gè)二次型尋優(yōu)問(wèn)題,從理論上說(shuō),得到的將是全局最優(yōu)點(diǎn),解決了在神經(jīng)網(wǎng)絡(luò)方法中無(wú)法避免的局部極值問(wèn)題;</p><p>  3.算法將實(shí)際問(wèn)題通過(guò)非線性變換轉(zhuǎn)換到高維空間,在高維空間中構(gòu)造線性逼近函數(shù)來(lái)實(shí)現(xiàn)原空間中的非線性逼近函數(shù),特殊性質(zhì)能保證學(xué)習(xí)機(jī)有較好的推廣能力,同時(shí),它巧妙地解決了維數(shù)問(wèn)題,使其算法復(fù)

14、雜度與維數(shù)無(wú)關(guān)。</p><p>  對(duì)于小樣本的分類(lèi)問(wèn)題,SVM具有調(diào)節(jié)參數(shù)較少、運(yùn)算速度快等優(yōu)點(diǎn)。通過(guò)地震或測(cè)井等信息進(jìn)行油氣預(yù)測(cè)是一種典型的非線性分類(lèi)器設(shè)計(jì)問(wèn)題,它具有已知樣本數(shù)較少、屬性空間維數(shù)高、沒(méi)有明確的對(duì)應(yīng)關(guān)系模型等特點(diǎn)。因此,選擇支持向量機(jī)對(duì)其進(jìn)行預(yù)測(cè)。</p><p><b>  1.2 研究現(xiàn)狀</b></p><p> 

15、 近十幾年來(lái)的測(cè)井技術(shù),特別是20世紀(jì)90年代后,取得了重大進(jìn)展。按照傳統(tǒng)的觀點(diǎn),測(cè)井技術(shù)在油氣勘探與開(kāi)發(fā)中,僅僅對(duì)油氣層做些儲(chǔ)層儲(chǔ)集性能和含油氣性能(孔隙度、滲透率、含油氣飽和度和油水的可動(dòng)性)定量或半定量的評(píng)價(jià)工作,這已遠(yuǎn)遠(yuǎn)跟不上油氣工業(yè)迅猛發(fā)展的需要。而當(dāng)今測(cè)井工作中評(píng)價(jià)油氣藏的理論、方法技術(shù)有了長(zhǎng)足的發(fā)展,解決地質(zhì)問(wèn)題的領(lǐng)域也在逐步擴(kuò)大。90年代,統(tǒng)計(jì)學(xué)習(xí)理論 (Statistical Learning Theory,SLT)是

16、一種處理小樣本的統(tǒng)計(jì)理論,為研究有限樣本情況下的統(tǒng)計(jì)模式識(shí)別和更廣泛的機(jī)器學(xué)習(xí)問(wèn)題建立了一個(gè)較好的理論框架,同時(shí)發(fā)展了一種新的方法——支持向量機(jī)(Support Vector Machine,簡(jiǎn)稱SVM),能較好地解決小樣本學(xué)習(xí)問(wèn)題。由于神經(jīng)網(wǎng)絡(luò)等較新興的機(jī)器學(xué)習(xí)方法的研究遇到一些重要的困難,比如如何確定網(wǎng)絡(luò)結(jié)構(gòu)的問(wèn)題、過(guò)學(xué)習(xí)與欠學(xué)習(xí)問(wèn)題、局部極小點(diǎn)問(wèn)題等,使得SVM迅速發(fā)展和完善,在解決小樣本、非線性及高維模式識(shí)別問(wèn)題中表現(xiàn)出許多特有

17、的優(yōu)勢(shì),并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中。支持向量機(jī)(SVM)是數(shù)據(jù)挖掘中的一個(gè)新方法,能非常成功地處理回歸問(wèn)</p><p><b>  1.3 論文內(nèi)容</b></p><p>  具體來(lái)說(shuō),《測(cè)井時(shí)間序列的支持向量機(jī)的回歸預(yù)測(cè)》的研究?jī)?nèi)容包括以下四章:</p><p>  第一章:前言。闡述支持向量機(jī)在測(cè)井屬性參數(shù)預(yù)測(cè)地質(zhì)屬

18、性數(shù)據(jù)中的應(yīng)用研究課題提出的目的和意義,在綜合查閱各類(lèi)相關(guān)文獻(xiàn)和分析專(zhuān)利檢索及手工檢索結(jié)果的基礎(chǔ)上評(píng)述國(guó)內(nèi)外研究概況和存在的問(wèn)題,確定本文研究?jī)?nèi)容的意義和研究方法的可行性。</p><p>  第二章:測(cè)井時(shí)間序列。主要講述了時(shí)間序列的意義以及時(shí)間序列的預(yù)測(cè)方法,測(cè)井?dāng)?shù)據(jù)可以把它看成為時(shí)間序列。</p><p>  第三章:支持向量機(jī)的原理和方法。本章介紹了支持向量機(jī)的基本原理,支持向量分

19、類(lèi),以及支持向量回歸。</p><p>  第四章:測(cè)井時(shí)間序列的支持向量機(jī)回歸預(yù)測(cè)。本章是研究的重點(diǎn),主要依據(jù)測(cè)井屬性參數(shù)用支持向量機(jī)預(yù)測(cè)儲(chǔ)層屬性孔隙度,并得到預(yù)測(cè)結(jié)果。</p><p>  第2章 測(cè)井時(shí)間序列</p><p>  2.1 時(shí)間序列概述</p><p>  時(shí)間序列預(yù)測(cè)研究始于20世紀(jì)80年代初期。時(shí)間序列預(yù)測(cè)方法從廣

20、義上可</p><p>  以分為定性預(yù)測(cè)和定量預(yù)測(cè)。定性預(yù)測(cè)是由預(yù)測(cè)者利用以往的經(jīng)驗(yàn),憑借直覺(jué)</p><p>  做出的預(yù)感和猜測(cè),具有較大的主觀性。定量預(yù)測(cè)是指運(yùn)用數(shù)學(xué)或統(tǒng)計(jì)方法建</p><p>  立數(shù)學(xué)模型,對(duì)歷史統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析,從而對(duì)未來(lái)的發(fā)展做出預(yù)測(cè),預(yù)測(cè)結(jié)</p><p>  果的準(zhǔn)確性與數(shù)學(xué)模型的選擇密切相關(guān)。長(zhǎng)期以來(lái),

21、國(guó)內(nèi)外學(xué)者對(duì)時(shí)間序列預(yù)測(cè)的理論和方法已做了大量研究,提出了各種各樣的預(yù)測(cè)建模方法,這些方法大致可分為兩大類(lèi),一類(lèi)是以時(shí)間序列法為代表的傳統(tǒng)方法,另一類(lèi)是以人工神經(jīng)網(wǎng)絡(luò)法為代表的新型人工智能方法。傳統(tǒng)方法中主要有時(shí)間序列法、多元線性回歸法及傅立葉展開(kāi)法等,傳統(tǒng)方法比較成熟,算法簡(jiǎn)單,速度快。然而,傳統(tǒng)方法都是線性模型方法,因此在遇到本質(zhì)非線性問(wèn)題時(shí)就顯得無(wú)能為力。支持向量機(jī)在處理非線性問(wèn)題時(shí),首先將非線性問(wèn)題轉(zhuǎn)化為高維空間中的線性問(wèn)題,然

22、后用一個(gè)核函數(shù)來(lái)代替高維空間中的內(nèi)積運(yùn)算,從而巧妙地解決了復(fù)雜計(jì)算問(wèn)題,并且有效地克服了維數(shù)災(zāi)難及局部極小問(wèn)題。</p><p>  時(shí)間序列是指按時(shí)間順序排列的一組數(shù)據(jù)。從統(tǒng)計(jì)意義上講,所謂時(shí)間序列就是將某一個(gè)指標(biāo)在不同時(shí)間上的不同數(shù)值,按照時(shí)間的先后順序排列而成的數(shù)列。這種數(shù)列由于受到各種偶然因素的影響,往往表現(xiàn)出某種隨機(jī)性,彼此之間存在著統(tǒng)計(jì)上的依賴關(guān)系。從數(shù)學(xué)意義上講,如果我們對(duì)某一個(gè)變量或一組變量進(jìn)行觀

23、察測(cè)量,在一系列時(shí)刻 得到的離散有序數(shù)集合 稱為離散數(shù)字時(shí)間序列,即隨機(jī)過(guò)程的一次樣本實(shí)現(xiàn)。設(shè) 是一個(gè)隨機(jī)過(guò)程, 是在時(shí)刻i對(duì)過(guò)程的觀測(cè)值,則 稱為一次樣本實(shí)現(xiàn),也就是一個(gè)時(shí)間序列。從系統(tǒng)意義上講,時(shí)間序列就是某一系統(tǒng)在不同時(shí)間(地點(diǎn),條件等)的響應(yīng)。這時(shí)間序列具有如下的特點(diǎn):首先,系序列中的數(shù)據(jù)或數(shù)據(jù)點(diǎn)的位置依賴于時(shí)間,即數(shù)據(jù)的取值依賴于時(shí)間的變化,但不一定是時(shí)間t的嚴(yán)格函數(shù)。其次,每一時(shí)刻上的取值或數(shù)據(jù)點(diǎn)的位置具有一定的隨機(jī)性,不可

24、能完全準(zhǔn)確地用歷史預(yù)測(cè)值。再次,前后時(shí)刻(不一定是相鄰時(shí)刻)的數(shù)值或數(shù)據(jù)點(diǎn)的位置有一定的相關(guān)性,這種相關(guān)性就是系統(tǒng)的動(dòng)態(tài)規(guī)律。最后,從整體上看,時(shí)間序列往往呈現(xiàn)某種趨勢(shì)性或出現(xiàn)周期性變化的現(xiàn)象。</p><p>  2.2 時(shí)間序列的預(yù)測(cè)方法</p><p>  2.2.1 時(shí)間序列線性預(yù)測(cè)方法</p><p>  一般來(lái)說(shuō),時(shí)間序列受趨勢(shì)變化因素、季節(jié)變化因素

25、、循環(huán)變化因素與不</p><p>  規(guī)則因素等四種因素的影響。70年代,由于Box-Jenkins模型的提出,使得時(shí)</p><p>  間序列方法得以迅速發(fā)展,并很快成為預(yù)測(cè)領(lǐng)域的主要方法之一。主要方法有:</p><p><b>  1.移動(dòng)平均法</b></p><p>  移動(dòng)平均是預(yù)測(cè)技術(shù)中的一種古老方法。

26、它對(duì)一組給定的歷史數(shù)據(jù),計(jì)算其</p><p>  平均值,并將這一平均值作為下一時(shí)期的預(yù)測(cè)值。移動(dòng)平均分為移動(dòng)算術(shù)平均</p><p>  與移動(dòng)幾何平均,以及移動(dòng)加權(quán)平均。這種方法非常簡(jiǎn)單但其預(yù)測(cè)精度是比較</p><p><b>  低的。</b></p><p><b>  2.分解方法</b&g

27、t;</p><p>  分解方法也是一種歷史悠久的方法,它的基本思想是將預(yù)測(cè)數(shù)據(jù)分解為季</p><p>  節(jié)因子、趨勢(shì)因子、循環(huán)因子和誤差或隨機(jī)因子。這種方法單獨(dú)使用效果并不</p><p>  好,但是它作為識(shí)別數(shù)據(jù)特性的一種方法,仍然有其深刻的影響力。目前的一</p><p>  些調(diào)整方法可視為是在其思想上的延伸。</p&g

28、t;<p><b>  3.季節(jié)系數(shù)法</b></p><p>  周期性演變的活動(dòng)是常見(jiàn)的事情。隨著季節(jié)變化而發(fā)生的周期性的需求變</p><p>  化就是例子,如水果、蔬菜、四季服裝、啤酒、冷飲的銷(xiāo)售量、火車(chē)乘客、旅游觀光的人數(shù)等。反映在時(shí)間序列資料上,統(tǒng)計(jì)數(shù)據(jù)呈現(xiàn)明顯的有規(guī)律的季節(jié)</p><p>  變動(dòng)。季節(jié)系數(shù)法就是

29、根據(jù)這一規(guī)律進(jìn)行預(yù)測(cè)的方法。在實(shí)際預(yù)測(cè)時(shí),要用季</p><p>  節(jié)系數(shù)修正沒(méi)有考慮季節(jié)影響的預(yù)測(cè)值。</p><p>  4.Box-Jenkins方法</p><p>  由于Box和Jenkins的開(kāi)拓性工作,自回歸移動(dòng)平均(ARIMA)模型仍是時(shí)間</p><p>  序列分析的中心課題,Box和Jenkins的著作《Time s

30、eries Analysis:Forecasting</p><p>  and Control》,曾一度成為時(shí)間序列分析的主要方法。Box-Jenkins方法在統(tǒng)計(jì)學(xué)</p><p>  上是完善的,有牢固的理論基礎(chǔ),有一套完整的程式化的建模方法。但同時(shí)這</p><p>  種方法是復(fù)雜的,對(duì)數(shù)據(jù)的性質(zhì)也有一定的要求。另外它還要求研究者有較高</p>

31、<p>  的專(zhuān)業(yè)知識(shí),對(duì)問(wèn)題有深刻的認(rèn)識(shí)。關(guān)于Box-Jenkins方法的預(yù)測(cè)精度,對(duì)于不</p><p>  同的運(yùn)用環(huán)境有著不同的結(jié)論。但是這些方法大都側(cè)重于理論研究,追求理論上的完善,以至于許多方法很不實(shí)用,真正能夠用于解決實(shí)際問(wèn)題的很少。例如用于時(shí)間序列分析的大多數(shù)方法Box-Jenkins方法,均假設(shè)各變量之間是一種線性關(guān)系,這種局限性使其在實(shí)際應(yīng)用中很難準(zhǔn)確地進(jìn)行分析和預(yù)測(cè)。因?yàn)樵趯?shí)際

32、的經(jīng)濟(jì)系統(tǒng)或工程系統(tǒng)中,總是或多或少地含有非線性因素,當(dāng)非線性因素影響較小,或在某一范圍內(nèi)影響較小時(shí),可以采用線性模型來(lái)描述或逼近。但當(dāng)這種描述或逼近得不到滿意的結(jié)果時(shí),就應(yīng)該應(yīng)用非線性時(shí)序模型,或其它適宜的非線性方法。同時(shí),結(jié)構(gòu)的復(fù)雜給應(yīng)用上帶來(lái)了很多困難,在預(yù)測(cè)效果上也未有一致性的進(jìn)展。因此,近年來(lái)學(xué)者們更加注意解決在實(shí)際中存在的具體問(wèn)題。</p><p>  2.2.2 時(shí)間序列的非線性預(yù)測(cè)方法</

33、p><p>  在過(guò)去的半個(gè)多世紀(jì)里,時(shí)間序列分析、預(yù)測(cè)得到了迅速的發(fā)展。特別是對(duì)線性時(shí)間序列分析的研究,己經(jīng)取得了系統(tǒng)和豐富的成果。但是對(duì)于非線性時(shí)間序列分析的研究,僅在近二十多年里才逐漸被重視起來(lái)。目前,非線性時(shí)間序列已成為時(shí)間序列分析及預(yù)測(cè)理論發(fā)展的一個(gè)重要研究方向。非線性模型范圍極廣,形式多樣,應(yīng)用起來(lái)難度較大。目前應(yīng)用較廣,成果較多的有雙線性模型(Bilinear),條件異方差模型(ARCH),和門(mén)限自回歸

34、模型(TRA)等。這些是傳統(tǒng)的非線性時(shí)間序列預(yù)測(cè)方法,均屬于模型驅(qū)動(dòng)的方法,即首先研究系統(tǒng)的演化行為,設(shè)定預(yù)測(cè)模型,估計(jì)、檢驗(yàn)?zāi)P蛥?shù),最后找出最佳模型。</p><p>  縱觀國(guó)內(nèi)外在這一方向上的研究,前期工作大多局限于對(duì)幾類(lèi)典型非線性時(shí)間序列模型的參數(shù)辨識(shí)算法和建模方法等進(jìn)行研究,一些代表性的工作如:Nicholls和Quinn(1982)對(duì)隨機(jī)系數(shù)自回歸模型的討論,Granger,Anderson(197

35、8),以及Subba RaoGabr(1984)對(duì)雙線性模型的分析,Haggan,Qzaki(1981)關(guān)于指數(shù)自回歸模型的討論,此外還有Tong(1983)關(guān)于門(mén)限自回歸模型的研究,Priestley(1980)的狀態(tài)依賴模型等。</p><p>  2.2.3 自回歸移動(dòng)平均(ARMA)模型</p><p>  在建立一個(gè)實(shí)際時(shí)間序列模型時(shí),可能既有自回歸部分,又有移動(dòng)平均部分,如:

36、</p><p><b>  或者寫(xiě)成算子形式:</b></p><p>  簡(jiǎn)記此模型為,括號(hào)中的第一個(gè)數(shù)據(jù)是自回歸階數(shù),第二個(gè)數(shù)據(jù)是移動(dòng)平均的階數(shù),故稱之為階的自回歸移動(dòng)平均模型。實(shí)際應(yīng)用中、的值很少超過(guò)3。對(duì)模型,我們總假定和(作為變量為的多項(xiàng)式)無(wú)公共因子,分別滿足平穩(wěn)性條件和可逆性條件。如果滿足平穩(wěn)性條件,稱是平穩(wěn)的;如果滿足可逆性條件,稱是可逆的。對(duì)平穩(wěn)的

37、模型,可表示為過(guò)去各期誤差的線性組合;對(duì)可逆的模型,可表示為過(guò)去各期數(shù)據(jù)的線性組合。</p><p>  由于自回歸模型不存在其它自變量,不受模型變量“相互獨(dú)立”假定條件的約束。因此,用AR模型及其原理可以構(gòu)成多種模型以消除或改進(jìn)普通回歸預(yù)測(cè)中由于自變量選擇、多重共線性、序列相關(guān)等原因所造成的困難。此外,在AR模型中,各種因素對(duì)預(yù)測(cè)目標(biāo)的影響是通過(guò)它們?cè)跁r(shí)間過(guò)程中的綜合體現(xiàn)被考慮的,是將序列歷史觀察值作為諸因素影

38、響與作用的結(jié)果用于建立其本身的歷史序列線性回歸模型的,因此,用普通最小二乘法就可以對(duì)模型進(jìn)行估計(jì)和求解。這一點(diǎn),AR模型比其它類(lèi)型的時(shí)間序列模型都優(yōu)越,應(yīng)用得也最廣泛。</p><p>  僅適用于描述平穩(wěn)的時(shí)間序列,而實(shí)際應(yīng)用中遇到的時(shí)間序列往往是非平穩(wěn)的,尤其是在經(jīng)濟(jì)管理中碰到的時(shí)間序列。盡管從實(shí)際應(yīng)用的角度看,用適當(dāng)?shù)淖曰貧w模型去近似一個(gè)穩(wěn)定或不穩(wěn)定的時(shí)間序列,在理論和方法上都是可行的,但我們常用差分化的方

39、法將非平穩(wěn)的序列化成平穩(wěn)序列來(lái)求解。</p><p>  在時(shí)刻t用 對(duì) 的取值進(jìn)行預(yù)測(cè),而 是一個(gè)未知的隨機(jī)變量,由于 之間具有相關(guān)性, 的概率分布是有條件的(即在 已給定的條件下)。 的期望也是有條件的,一個(gè)直觀的想法就是用 的條件期望作為 的預(yù)測(cè)值,即:</p><p>  為了利用條件期望計(jì)算預(yù)測(cè)值,需要先了解有關(guān)時(shí)間序列 和隨機(jī)擾動(dòng) 的條件期望所具有的性質(zhì):</p>

40、<p>  常量的條件期望是其本身。</p><p>  對(duì)ARMA序列而言,現(xiàn)在時(shí)刻與過(guò)去時(shí)刻的觀測(cè)值及擾動(dòng)的條件期望是其本身,即:</p><p>  2)未來(lái)擾動(dòng)的條件期望為零,即:</p><p>  3)未來(lái)取值的條件期望為未來(lái)取值的預(yù)測(cè)值,即:</p><p>  ARMA(n,m)模型預(yù)測(cè)的一般結(jié)果:</p&g

41、t;<p><b>  由ARMA模型:</b></p><p>  可將 表示為: </p><p><b>  (2.1)</b></p><p>  利用條件期望的性質(zhì)對(duì)(2.1)求條件期望,當(dāng) 時(shí)有: &

42、lt;/p><p><b>  (2.2)</b></p><p>  當(dāng)k>m時(shí),上式中的滑動(dòng)平滑部分全部消失,有:</p><p><b>  (2.3)</b></p><p>  式(2.3)的通解為(即預(yù)測(cè)函數(shù)形式)為:</p><p><b>  (2

43、.4)</b></p><p>  這里 ,其中 的形式由模型特征方程:</p><p>  的根決定。當(dāng)預(yù)測(cè)原點(diǎn)t 給定時(shí),系數(shù) 都是常數(shù),并由模型的滑動(dòng)平均部分確定,隨著預(yù)測(cè)原點(diǎn)的變化,這些系數(shù)也將改變,以使預(yù)測(cè)值適應(yīng)于序列已觀測(cè)部分的特性。綜上所述,對(duì)于ARMA(n,m)模型,自回歸部分決定了預(yù)測(cè)函數(shù)的形式,而平滑部分則用于確定預(yù)測(cè)函數(shù)中的系數(shù)。</p>

44、<p>  有些時(shí)間序列常呈現(xiàn)出一種特殊的非平穩(wěn)性,稱之為齊次非平穩(wěn)性:只要進(jìn)行一次或多次差分就可以將其化為平穩(wěn)序列。差分的次數(shù)稱為齊次化的階。這樣的時(shí)間序列可用求和自回歸-移動(dòng)平均模型來(lái)描述。</p><p><b>  定義差分</b></p><p><b>  </b></p><p>  引入差分算子

45、。階差分可定義為,如二階差分</p><p><b>  =</b></p><p><b>  或者</b></p><p>  階求和自回歸—移動(dòng)平均模型為</p><p><b>  (2.5)</b></p><p>  亦即是序列。其中為求和階

46、數(shù),、分別為序列的自回歸和移動(dòng)平均的階數(shù)。式(2.5)所示的求和自回歸-移動(dòng)平均模型用記號(hào)表示。</p><p>  對(duì)這類(lèi)非平穩(wěn)的序列,我們假定從1開(kāi)始才有定義,并且假定的前個(gè)隨機(jī)變量是均值為零,方差有限且與不相關(guān),因而也與不相關(guān)。序列可用它的初值及平穩(wěn)序列表達(dá)。事實(shí)上,由于差分的逆運(yùn)算是求和,所以</p><p><b>  , (2.6)</b></p&

47、gt;<p>  其中。我們不去推導(dǎo)上述公式,僅僅討論兩種最簡(jiǎn)單的情況。</p><p><b>  i),此時(shí)</b></p><p><b>  ,</b></p><p>  從而式(2.6)成立。</p><p>  ii),此時(shí)由上式知</p><p>

48、;<b>  同理有,代入整理知</b></p><p><b>  ,</b></p><p>  對(duì)于序列,它可以通過(guò)階差分化成平穩(wěn)的序列。</p><p>  2.2.4 季節(jié)型模型</p><p>  在許多的實(shí)際問(wèn)題中,時(shí)間序列會(huì)顯示出 周期變化的規(guī)律,這種周期性是由于季節(jié)變化或其他物理

49、因素所致,我們稱這類(lèi)序列為季節(jié)性序列。季節(jié)性時(shí)間序列的重要特征表現(xiàn)為周期性。對(duì)于含有季節(jié)性周期的時(shí)間序列,也可用季節(jié)差分的方法將之化成平穩(wěn)序列。例如,對(duì)月度波動(dòng),可以用月度差分對(duì)作運(yùn)算</p><p>  對(duì)季度波動(dòng),可以用季度差分</p><p>  消除數(shù)據(jù)中的季節(jié)性影響。鮑克斯—詹金斯季節(jié)模型為</p><p><b> ?。?.7)</b&g

50、t;</p><p>  若取,則上述模型可展開(kāi)為</p><p>  有時(shí)隨機(jī)干擾項(xiàng)也是與季節(jié)相關(guān)的。這時(shí),可以用模型</p><p><b>  來(lái)描述。例如</b></p><p>  就描述了一個(gè)既有線性發(fā)展趨向、又含月度周期變動(dòng)的隨機(jī)型時(shí)間序列模型。如能預(yù)測(cè)到的長(zhǎng)期趨勢(shì)時(shí),就是零均值了。</p>

51、<p>  第3章 支持向量機(jī)的原理和方法</p><p>  3.1 SVM的基本思想</p><p>  SVM是從線性可分的情況下的最優(yōu)分類(lèi)面發(fā)展而來(lái)的,其基本思想可用圖3-1所示的二維情況說(shuō)明。</p><p>  圖3-1 最優(yōu)分類(lèi)面的示意圖</p><p>  圖3-1中,實(shí)心點(diǎn)和空心點(diǎn)代表兩類(lèi)數(shù)據(jù)樣本,H為分類(lèi)

52、線,H1 ,H2分別為各類(lèi)中離分類(lèi)線最近的數(shù)據(jù)樣本且平行于分類(lèi)線的直線,他們之間的距離叫做分類(lèi)間隔(margin)。所謂最優(yōu)分類(lèi)線,就是要求分類(lèi)線不但能將兩類(lèi)正確分開(kāi),使訓(xùn)練錯(cuò)誤率為0,而且還要使分類(lèi)間隔最大。前者保證經(jīng)驗(yàn)風(fēng)險(xiǎn)最小;使分類(lèi)間隔最大實(shí)際上就是使推廣性界中的置信范圍最小,從而使真實(shí)風(fēng)險(xiǎn)最小。推廣到高維空間,最優(yōu)分類(lèi)線就成了最優(yōu)分類(lèi)面。</p><p>  3.1.1 最優(yōu)分類(lèi)面</p>

53、<p>  設(shè)有兩類(lèi)線性可分的樣本集合:,線性判別函數(shù)的一般形式為 ,對(duì)應(yīng)的分類(lèi)面方程如下:</p><p>  將判別函數(shù)進(jìn)行歸一化,使兩類(lèi)所有樣本都滿足,此時(shí)離分類(lèi)面最近的樣本,要求分類(lèi)面對(duì)所有樣本都能正確分類(lèi),即滿足:</p><p><b> ?。?.1)</b></p><p>  此時(shí)分類(lèi)間隔等于,間隔最大等價(jià)于最小。,

54、滿足式(3.1)且使最小的分類(lèi)面就是圖3-1中的最優(yōu)分類(lèi)線H ,H1 ,H2上的數(shù)據(jù)樣本叫做支持向量(Support Vector,SV),因?yàn)樗麄冎瘟俗顑?yōu)分類(lèi)面。</p><p>  因此,最優(yōu)分類(lèi)面問(wèn)題可以表示成如下的約束優(yōu)化問(wèn)題,即在式(3.1)的約束下,求如下函數(shù)的最小值:</p><p><b>  s.t. </b></p><p&g

55、t;<b>  (3.2)</b></p><p>  為此,定義如下的Lagrange函數(shù):</p><p><b> ?。?.3)</b></p><p>  式中,為L(zhǎng)agrange乘子。為求Lagrange函數(shù)式(3.3)的最小值,分別對(duì)求偏微分并令他們等于0,于是有:</p><p>  

56、根據(jù)上式和(2.2)的約束條件,可以將上述最優(yōu)分類(lèi)面的求解問(wèn)題轉(zhuǎn)化為如下的凸二次規(guī)劃尋優(yōu)的對(duì)偶問(wèn)題:</p><p>  s.t. (3.4)</p><p>  式中 為對(duì)應(yīng)的Lagrange乘子,這是一個(gè)二次函數(shù)尋優(yōu)的問(wèn)題,存在唯一解。若 為最優(yōu)解,則有:</p><p>  式中 不為零的

57、樣本,即為支持向量。因此,最優(yōu)分類(lèi)面的權(quán)系數(shù)向量是支持向量的線性組合。</p><p>  是分類(lèi)閾值,可由約束條件 求解,解上述問(wèn)題后得到的最優(yōu)分類(lèi)面函數(shù)為: </p><p>  3.1.2 廣義的最優(yōu)分類(lèi)面</p><p>  上面的方法在保證訓(xùn)練樣本全部被正確分類(lèi)(即經(jīng)驗(yàn)風(fēng)險(xiǎn)為零)的前提下,通過(guò)最大化分類(lèi)間隔來(lái)獲得最好的推廣性能。當(dāng)最優(yōu)分類(lèi)面不能把兩類(lèi)點(diǎn)完

58、全分開(kāi)時(shí),如果希望在經(jīng)驗(yàn)風(fēng)險(xiǎn)和推廣性能之間求得某種均衡,則可以通過(guò)引入松弛因子,允許錯(cuò)分樣本的存在,此時(shí)的分類(lèi)面 滿足:</p><p><b> ?。?.5)</b></p><p>  當(dāng)時(shí),樣本點(diǎn)正確分類(lèi);當(dāng)時(shí),樣本點(diǎn)被錯(cuò)分。為此,在最小化目標(biāo)中加入懲罰項(xiàng),引入以下目標(biāo)函數(shù):</p><p><b> ?。?.6)</b&

59、gt;</p><p>  式中,C是一個(gè)正常數(shù),稱為懲罰因子。與線性可分情況類(lèi)似。上式可通過(guò)如下的二次規(guī)劃來(lái)實(shí)現(xiàn):</p><p><b>  s.t.</b></p><p><b>  (3.7)</b></p><p>  對(duì)非線性分類(lèi)問(wèn)題,若在原始空間中的簡(jiǎn)單最優(yōu)分類(lèi)面不能得到滿意的分類(lèi)結(jié)

60、果,則可以通過(guò)非線性變換轉(zhuǎn)化為某個(gè)高維空間的線性問(wèn)題。在變換空間求最優(yōu)分類(lèi)面。變換可能比較復(fù)雜,在一般情況下不易實(shí)現(xiàn),SVM通過(guò)核函數(shù)變換巧妙地解決了這個(gè)問(wèn)題。</p><p>  3.2 支持向量回歸</p><p>  3.2.1 SVM回歸原理</p><p>  SVM回歸問(wèn)題與分類(lèi)問(wèn)題有一些相似,給定的數(shù)據(jù)樣本集合為:</p><p

61、><b>  ,其中,</b></p><p>  回歸問(wèn)題就是尋找 上的一個(gè)函數(shù),以便用來(lái)推斷任一輸入x所y對(duì)應(yīng)的y值。</p><p>  支持向量的方法應(yīng)用到回歸問(wèn)題中,保留了最大間隔算法的所有的主要特征,非線性函數(shù)可以通過(guò)核特征空間的線性學(xué)習(xí)器得到。SVM回歸算法要最小化一個(gè)凸函數(shù)并且他的解是稀疏的。還需要定義一個(gè)損失函數(shù),即 不敏感損失函數(shù),該函數(shù)可以

62、忽略真實(shí)值某個(gè)上下范圍內(nèi)的誤差。</p><p>  3.2.2 線性支持向量回歸</p><p>  設(shè)數(shù)據(jù)樣本為n維向量,某區(qū)域的k個(gè)數(shù)據(jù)樣本及其值的表示為:</p><p><b>  線性函數(shù)設(shè)為:</b></p><p><b>  優(yōu)化問(wèn)題即最小化:</b></p>&l

63、t;p><b>  約束條件為:</b></p><p>  其中 使函數(shù)更為平坦,從而提高了泛化能力, 為減小誤差,常數(shù)C對(duì)兩者做出折中。 為一正常數(shù)。 與 的差別小于時(shí)不計(jì)入誤差,大于 時(shí)計(jì)為 。這也是一個(gè)凸二次優(yōu)化問(wèn)題,引入拉格朗日函數(shù):</p><p><b>  其中, </b></p><p>  函數(shù)L

64、應(yīng)對(duì) 最小化,對(duì) 最大化。函數(shù)L的極值應(yīng)滿足條件:</p><p><b>  從而得到: </b></p><p><b>  (3.8)</b></p><p>  (3.9) &l

65、t;/p><p>  由以上各式可以得到優(yōu)化問(wèn)題的對(duì)偶形式,最大化函數(shù):</p><p><b>  其約束為: </b></p><p>  3.2.3 非線性支持向量回歸</p><p>  非線性回歸與線性回歸分類(lèi)相似。首先,使用一非線性映射把數(shù)據(jù)映射到一個(gè)高維空間,再在高維空間進(jìn)行線性回歸。其關(guān)鍵問(wèn)題是核函數(shù)K(x

66、,y)的使用。這里,優(yōu)化問(wèn)題的最大化函數(shù)為: </p><p><b>  約束條件為:</b></p><p>  函數(shù) 可直接表示成為:</p><p>  按照Kuhn –Tucker定理有:</p><p><b> ?。?.10)</b></p><p><b

67、>  (3.11)</b></p><p><b> ?。?.12)</b></p><p>  由(3.10)(3.11)可得 ,即任何一組 和 都不會(huì)同時(shí)為非0.</p><p>  由(3.8) (3.9) 及(3.12)可得:</p><p>  由此可見(jiàn),對(duì)應(yīng)于 或 的 與 的誤差可能大于 ,

68、對(duì)應(yīng)于 或 的 與 的誤差必然等于 ,即 或 ,因此有:</p><p>  由以上兩式可以求得b</p><p>  3.2.4 支持向量回歸</p><p>  根據(jù)某種概率分布 生成的樣本:</p><p>  支持向量回歸(SVR)問(wèn)題就是希望找到適當(dāng)?shù)膶?shí)值函數(shù) 來(lái)擬合這些訓(xùn)練點(diǎn),使得:</p><p>

69、  最小,其中c為損失函數(shù)。</p><p>  觀測(cè)值 與函數(shù)預(yù)測(cè)值 之間的誤差,我們用 不敏感函數(shù):</p><p>  來(lái)度量,即當(dāng)x點(diǎn)的觀測(cè)值 與預(yù)測(cè)值 之間的誤差不超過(guò)事先給定的小正數(shù) 時(shí),認(rèn)為該函數(shù)對(duì)這些樣本點(diǎn)的擬合是無(wú)差錯(cuò)的。</p><p>  由于 未知,不能直接最小化 。因此考慮最小化:</p><p><b>

70、  (3.13)</b></p><p>  其中 表示函數(shù) 的復(fù)雜性,后一項(xiàng)表示訓(xùn)練集上的平均損失,常數(shù)C則體現(xiàn)了函數(shù)類(lèi)的復(fù)雜性和訓(xùn)練集上的平均損失之間的折中關(guān)系。</p><p>  最小化(3.2.4-1)等價(jià)于最優(yōu)化問(wèn)題:</p><p><b> ?。?.14)</b></p><p>  上述問(wèn)題

71、的對(duì)偶形式為:</p><p><b> ?。?.15)</b></p><p><b>  其中, 為核函數(shù)。</b></p><p>  問(wèn)題(3.15)的解為 ,從而:</p><p>  其中 的計(jì)算公式為:</p><p>  普通最小二乘和嶺回歸都是 的一種特殊情

72、況,從這個(gè)意義上講 是前者的一個(gè)推廣。SVR是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化,而不是傳統(tǒng)意思上的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,可以保證良好的預(yù)測(cè)能力。</p><p>  3.2.5 v- 支持向量回歸</p><p>  在 中,需要實(shí)現(xiàn)確定損失函數(shù)中的參數(shù) 。本節(jié)引能自動(dòng)計(jì)算 的 ??紤]下面的最優(yōu)化問(wèn)題:</p><p>  其中, 是一個(gè)非負(fù)的常數(shù)。上述問(wèn)題的對(duì)偶問(wèn)題為:</p

73、><p>  其中, 和C為常數(shù)。估計(jì)式為:</p><p><b>  (3.16)</b></p><p><b>  具有以下性質(zhì):</b></p><p>  如果問(wèn)題(3.16)得到的 不為零,則 ,其中p為錯(cuò)誤樣本的個(gè)數(shù),q為支持向量的個(gè)數(shù)。</p><p>  如果

74、 的解為 ,而事先取 為 和 相同的C值,那么 得到的解為。 </p><p>  3.2.6 時(shí)間序列分析</p><p>  基于 的時(shí)間序列預(yù)測(cè)問(wèn)題的數(shù)學(xué)描述如下:設(shè)</p><p>  為時(shí)間序列數(shù)據(jù)以及周期為k的輸入:</p><p><b>  定義預(yù)測(cè)函數(shù):</b></p><p>

75、;  支持向量機(jī)時(shí)間序列預(yù)測(cè)模型的最優(yōu)化問(wèn)題為:</p><p><b>  其中函數(shù):</b></p><p><b> ?。?.17)</b></p><p>  為 不敏感損失函數(shù)。</p><p> ?。?.17)的對(duì)偶形式為:</p><p>  其中, 為核函數(shù),

76、可以釋為輸入樣本 的相似度。</p><p>  上述問(wèn)題是凸二次規(guī)劃,有唯一的全局最優(yōu)解。如果采用線性核函數(shù),基于SVR的時(shí)間序列預(yù)測(cè)問(wèn)題的決策函數(shù)就是:</p><p>  即統(tǒng)計(jì)學(xué)上的K階自回歸模型(AR[K])</p><p>  3.3 支持向量算法</p><p>  3.3.1 支持向量機(jī)的訓(xùn)練算法</p>&

77、lt;p>  支持向量機(jī)的最終求解問(wèn)題歸結(jié)為一個(gè)有約束的二次型規(guī)劃(QP,Quadratic</p><p>  Programming)問(wèn)題??梢岳脴?biāo)準(zhǔn)二次型優(yōu)化技術(shù)來(lái)求解這個(gè)優(yōu)化問(wèn)題,如牛頓法、共軛梯度法、內(nèi)點(diǎn)法等。但是,這些方法只適合小樣本情況,當(dāng)樣本數(shù)目較大時(shí),算法復(fù)雜度會(huì)急劇增加,而且占用極大的系統(tǒng)內(nèi)存。為降低計(jì)算資源、提高算法效率,已經(jīng)提出許多針對(duì)大規(guī)模樣本集的訓(xùn)練算法:</p>

78、<p> ?。?)分塊算法(Chunking)(Cortes and Vapnik,1995)</p><p>  1995年,Cortes和Vapnik給出了一種求解支持向量機(jī)二次規(guī)劃(QP)問(wèn)題的分塊算法。其依據(jù)是支持向量機(jī)的最終求解結(jié)果只與支持向量有關(guān),與非支持向量無(wú)關(guān)。其實(shí)現(xiàn)過(guò)程是將初始QP問(wèn)題分解為一系列小規(guī)模的QP子問(wèn)題,不斷的求解QP子問(wèn)題,保留解中的支持向量,并加入到新的QP子問(wèn)題中。

79、每個(gè)QP子問(wèn)題都采用上次求解的結(jié)果作為初始值。直到所有的QP子問(wèn)題求解完畢。這種方法可以大大減小算法占用的系統(tǒng)內(nèi)存。然而,當(dāng)樣本集中的支持向量數(shù)目很大時(shí),其算法復(fù)雜度仍然很大</p><p> ?。?)子集選擇算法 (Subset Selection Algorithms ) (Osuna,1997;Joachims,1998)為加快支持向量機(jī)的訓(xùn)練速度,Osuna(1997)提出了子集選擇算法。該方法首先將數(shù)據(jù)

80、集分塊,從分塊數(shù)據(jù)中提取支持向量,并加以保留,然后補(bǔ)充新的樣本,反復(fù)運(yùn)算,直至所有的樣本都滿足KKT(Karush-Kuhn-Tucker,for short:KKT)(Vapnik,1995)收斂條件。1998年,Joachims指出,采用啟發(fā)式迭代策略會(huì)提高算法的收斂速度,并提出一種稱為SVMlight的支持向量機(jī)分解學(xué)習(xí)算法。該算法實(shí)際上是子集選擇算法的推廣。</p><p> ?。?)序列最小優(yōu)化算法(S

81、MO,Sequential Minimal optimization)</p><p> ?。≒latt,1998)1998年,Platt提出了更為有效的支持向量機(jī)訓(xùn)練算法,即序列最小優(yōu)化算法。其基本思想是把一個(gè)大數(shù)據(jù)量的QP分解為一系列最小的QP子優(yōu)化問(wèn)題。該算法是分解算法的一個(gè)極端特例。其實(shí)現(xiàn)過(guò)程為,每次針對(duì)兩個(gè)樣本的二次規(guī)劃問(wèn)題,直接采用解析方法求其最優(yōu)解,以提高QP問(wèn)題的求解速度。Platt設(shè)計(jì)了一個(gè)兩層

82、嵌套循環(huán)過(guò)程實(shí)現(xiàn)其算法。在外環(huán)中采用啟發(fā)式方法尋找違背KKT最優(yōu)條件的樣本,在內(nèi)環(huán)中對(duì)該樣本的相應(yīng)Lagrange乘子進(jìn)行分析求解,完成一次優(yōu)化。不斷重復(fù)此過(guò)程,直至所有樣本都滿足KKT條件。序列最小優(yōu)化算法將工作樣本集的規(guī)模減少為兩個(gè),直接導(dǎo)致了迭代次數(shù)的增加。所以序列最小優(yōu)化算法實(shí)際上是將求解優(yōu)化問(wèn)題的耗費(fèi)轉(zhuǎn)嫁到迭代運(yùn)算上。Platt指出,通過(guò)核優(yōu)化方法可以大幅提高序列最小優(yōu)化算法的性能。該算法在訓(xùn)練線性支持向量機(jī)時(shí),可以獲得非常好

83、的性能,但在訓(xùn)練非線性支持向量機(jī)時(shí),算法速度會(huì)大大減慢。由于每一個(gè)子規(guī)劃問(wèn)題的解可以精確地給出,因此序貫極小優(yōu)化算法既不需要額外的矩陣存儲(chǔ),而且不用調(diào)用求解二次規(guī)劃的數(shù)值迭代程序,從而使它的收斂速度顯著提高。SMO算法包括三個(gè)要點(diǎn):最優(yōu)</p><p>  (4)增量式算法(Cauwenberghs,2001)</p><p>  Cauwenberghs(2001)提出了一種增量減量式學(xué)

84、習(xí)方法,考慮了增加或減少一個(gè)訓(xùn)練樣本對(duì)Lagrange系數(shù)和支持向量機(jī)的影響,實(shí)驗(yàn)表明算法是有效的。在減少一個(gè)樣本時(shí),給出了模型選擇算法LOO(Leave one out)的形象解釋。Ralaivola(2001)提出了另一種增量式學(xué)習(xí)方法。其思想為基于高斯核的局部特性,只更新對(duì)學(xué)習(xí)機(jī)器輸出影響最大的Lagrange系數(shù),以減少計(jì)算復(fù)雜度。另外,Suykens(2001)提出了一種周期最小二乘支持向量機(jī)用于時(shí)間序列的預(yù)測(cè)。</p&

85、gt;<p>  3.3.2 C-SVM算法及其變形算法</p><p>  對(duì)于非線性分類(lèi)問(wèn)題,一方面通過(guò)引進(jìn)松弛變量放松約束,另一方面引進(jìn)輸入 到Hilbert空間H的變換 把數(shù)據(jù)樣本集:</p><p>  映射為: , 得到如下的原始問(wèn)題:</p><p><b> ?。?.17)</b></p><

86、p>  若對(duì)應(yīng)于變換 的核函數(shù)為 ,則原始問(wèn)題的對(duì)偶問(wèn)題為:</p><p>  若K是正定核,則上式對(duì)偶問(wèn)題必有解,且其解為 ,使得:</p><p>  其中,系數(shù) 只有當(dāng)相應(yīng)的數(shù)據(jù)樣本點(diǎn) 剛好使約束式(3.17)等號(hào)成立時(shí)才可能為零。</p><p>  由上述分析可建立C-支持向量機(jī)(C-SVM),其對(duì)應(yīng)的數(shù)學(xué)描述如下:</p><

87、p>  設(shè)已知樣本數(shù)據(jù)集 ,其中; </p><p>  選取適當(dāng)?shù)暮撕瘮?shù) 和適當(dāng)?shù)膮?shù)C,構(gòu)造并求解最優(yōu)化問(wèn)題:</p><p><b>  求得最優(yōu)解 。</b></p><p>  選取 的一個(gè)正分量 ,并據(jù)此計(jì)算閾值: </p><p><b>  構(gòu)造決策函數(shù): &

88、lt;/b></p><p>  在上述算法的原始問(wèn)題中,目標(biāo)函數(shù)是: </p><p>  也可以用 來(lái)代替 ,這樣原始問(wèn)題就變?yōu)椋?lt;/p><p>  容易證明,該問(wèn)題等價(jià)于問(wèn)題:</p><p>  且上面2式關(guān)于 的解均非負(fù)。 </p><p>  與前面的分析推導(dǎo)類(lèi)似,上面最優(yōu)化問(wèn)題的對(duì)偶問(wèn)題為:&

89、lt;/p><p>  其中 4)中的原始問(wèn)題對(duì) 的解為 可表示為:</p><p>  據(jù)此可建立如下的C-支持向量分類(lèi)機(jī)的一種變形。</p><p>  C-支持向量分類(lèi)機(jī)的變形算法如下:</p><p><b>  設(shè)已知訓(xùn)練集: </b></p><p>  選取適當(dāng)?shù)暮撕瘮?shù) 和適當(dāng)?shù)?/p>

90、參數(shù)C,構(gòu)造并求解最優(yōu)化問(wèn)題:</p><p>  其中 求得最優(yōu)解 。</p><p>  (3)選取 的一個(gè)正分量 ,并據(jù)此計(jì)算閾值:</p><p>  (4)構(gòu)造決策函數(shù):</p><p>  第4章 測(cè)井時(shí)間序列的支持向量機(jī)回歸預(yù)測(cè)</p><p><b>  4.1 引言</b>

91、;</p><p>  儲(chǔ)層參數(shù)是含油氣性的一個(gè)重要標(biāo)志,儲(chǔ)層巖石滲透率和孔隙度分布的不均勻性直接影響油氣分布、運(yùn)移和開(kāi)采。對(duì)于勘探區(qū)塊,可以提高鉆井成功率,減少勘探成本;對(duì)于開(kāi)發(fā)區(qū)塊,則為優(yōu)化鉆采方案提供了必要條件。因此許多地質(zhì)工作者致力于儲(chǔ)層參數(shù)的研究和預(yù)測(cè)。由于儲(chǔ)層分布的多相性和非均勻性,因此無(wú)論是直接或間接的測(cè)量孔隙度和滲透率都是一個(gè)非常困難和代價(jià)昂貴的工作</p><p>  儲(chǔ)

92、層參數(shù)與測(cè)井曲線或地震數(shù)據(jù)之間關(guān)系是非線性的,沒(méi)有明確的一一對(duì)應(yīng)關(guān)系</p><p>  自從1995年Vapnik及其合作者提出支持向量機(jī)[6~10]的思想以來(lái),該算法已經(jīng)在模式識(shí)別領(lǐng)域得到了廣泛的應(yīng)用,并且已經(jīng)在文本分類(lèi)、圖像識(shí)別、手寫(xiě)字識(shí)別、蛋白質(zhì)同源檢測(cè)及基因表達(dá)[64]等方面取得了巨大的成功,對(duì)于小樣本的分類(lèi)問(wèn)題,SVM具有調(diào)節(jié)參數(shù)較少,運(yùn)算速度快等優(yōu)點(diǎn)。通過(guò)測(cè)井等信息進(jìn)行油氣預(yù)測(cè)是一種典型的非線性分類(lèi)

93、器設(shè)計(jì)問(wèn)題,它具有已知樣本數(shù)較少等特點(diǎn)。目前國(guó)內(nèi)有學(xué)者已致力于支持向量機(jī)預(yù)測(cè)含油氣性這一領(lǐng)域的研究,其中最早的有:姚凱豐,李衍達(dá);樂(lè)友喜,袁全社,其中這些預(yù)測(cè)所選擇的核函數(shù)是多項(xiàng)式核。</p><p>  由測(cè)井?dāng)?shù)據(jù)預(yù)測(cè)儲(chǔ)層參數(shù)最常用的過(guò)程包括:</p><p> ?、傺販y(cè)井資料的目的層計(jì)算出反映其特性的若干測(cè)井屬性(振幅、頻率、相位等);</p><p>  ②通

94、過(guò)該層的井中測(cè)試儲(chǔ)層參數(shù)結(jié)果(孔隙度)建立井中測(cè)井屬性與井中測(cè)試結(jié)果的關(guān)系;</p><p> ?、劾眠@一關(guān)系推斷出未知井所有井中儲(chǔ)層參數(shù)的結(jié)果。我們首先獲取學(xué)習(xí)樣本的信息,對(duì)于由測(cè)井屬性預(yù)測(cè)孔隙度和滲透率的問(wèn)題,對(duì)得到的測(cè)井?dāng)?shù)據(jù),首先選擇一口或多口井,依據(jù)深度開(kāi)一窗口,在此窗口內(nèi)每個(gè)一定的深度有一組測(cè)井屬性數(shù)據(jù),我們以此點(diǎn)深度和測(cè)井?dāng)?shù)據(jù)組成訓(xùn)練樣本點(diǎn) ,以此點(diǎn)對(duì)應(yīng)的孔隙度或滲透率為 ,如果以多口井為訓(xùn)練樣本我

95、們?cè)谟?xùn)練樣本點(diǎn) 加上此井的水平坐標(biāo)。支持向量機(jī)通過(guò)對(duì)訓(xùn)練樣本的學(xué)習(xí)獲得一定的預(yù)測(cè)能力,訓(xùn)練后將預(yù)測(cè)的測(cè)井屬性數(shù)據(jù)作為輸入、輸出結(jié)果便是這一深度孔隙度。支持向量機(jī)預(yù)測(cè)流程如圖4.1。</p><p>  圖4.1 支持向量預(yù)測(cè)流程</p><p><b>  4.2 應(yīng)用實(shí)例</b></p><p>  測(cè)井是一門(mén)邊沿學(xué)科,它是將電磁學(xué)、聲學(xué)

96、、核物理學(xué)、熱學(xué)、光學(xué)、力學(xué)等學(xué)科的基本理論和測(cè)量方法,用于油氣井和其它礦井中,依靠獲取的大量信息進(jìn)行資源評(píng)價(jià)。在石油地質(zhì)中,通常根據(jù)不同的測(cè)井曲線劃分沉積相,預(yù)測(cè)儲(chǔ)層孔隙度、滲透率、預(yù)測(cè)巖性、評(píng)估儲(chǔ)層油氣含量等。根據(jù)測(cè)井理論及其方法,與孔隙度相關(guān)的測(cè)井方法有聲波測(cè)井、中子密度測(cè)井和巖石密度測(cè)井。</p><p><b>  表4-1</b></p><p>  井標(biāo)

97、 有效深度 樣本數(shù)</p><p>  x13 3226.6——3278.5 84</p><p>  x19 3279.8——3312.5 132</p><p

98、>  x22 3300.9——3330.9 91</p><p>  x40 3299.6——3333.1 130</p><p>  x43 3410.1——3462.9 208<

99、/p><p>  每個(gè)深度點(diǎn)有測(cè)井?dāng)?shù)據(jù),其中測(cè)井有深度、聲波時(shí)差、自然電位、自然伽瑪、補(bǔ)償中子、巖石密度、電阻率等11種屬性??紫抖仁菙鄶嗬m(xù)續(xù)巖芯實(shí)測(cè)值。依據(jù)根據(jù)測(cè)井理論及典型相關(guān)性分析優(yōu)選出與孔隙度相關(guān)的6種屬性,分別</p><p>  為深度、聲波時(shí)差、自然伽瑪、巖石密度、電阻率、補(bǔ)償中子。然后將其分別標(biāo)準(zhǔn)化,我們用單一的測(cè)井作為訓(xùn)練樣本,但預(yù)測(cè)效果不是很好。定量的預(yù)測(cè)結(jié)果見(jiàn)圖4-1,圖

100、4-2,圖4-3:</p><p>  圖4-1 以x43,x13為訓(xùn)練樣本,SVM預(yù)測(cè)x19井</p><p>  圖4-2 以x43,x13為訓(xùn)練樣本,SVM預(yù)測(cè)x22井</p><p>  圖4-3 以x43,x13為訓(xùn)練樣本,SVM預(yù)測(cè)x40井</p><p>  從上面的圖及表中可以看出,支持向量機(jī)預(yù)測(cè)x22時(shí)效果最好,預(yù)測(cè)x40井

101、時(shí)效果最差。</p><p>  >>edit svmtrain</p><p>  >>edit svmclassify</p><p>  >>edit svmpredict</p><p>  function [svm_struct, svIndex] = svmtrain(training, gr

102、oupnames, varargin)</p><p>  %SVMTRAIN trains a support vector machine classifier</p><p>  % SVMStruct = SVMTRAIN(TRAINING,GROUP) trains a support vector machine</p><p>  % clas

103、sifier using data TRAINING taken from two groups given by GROUP.</p><p>  % SVMStruct contains information about the trained classifier that is</p><p>  % used by SVMCLASSIFY for classificat

104、ion. GROUP is a column vector of</p><p>  % values of the same length as TRAINING that defines two groups. Each</p><p>  % element of GROUP specifies the group the corresponding row of TRAIN

105、ING</p><p>  % belongs to. GROUP can be a numeric vector, a string array, or a cell</p><p>  % array of strings. SVMTRAIN treats NaNs or empty strings in GROUP as</p><p>  % m

106、issing values and ignores the corresponding rows of TRAINING</p><p>  % SVMTRAIN(...,'KERNEL_FUNCTION',KFUN) allows you to specify the kernel</p><p>  % function KFUN used to map th

107、e training data into kernel space. The</p><p>  % default kernel function is the dot product. KFUN can be one of the</p><p>  % following strings or a function handle:</p><p>&l

108、t;b>  %</b></p><p>  % 'linear' Linear kernel or dot product</p><p>  % 'quadratic' Quadratic kernel</p><p>  % 'polynomial'

109、; Polynomial kernel (default order 3)</p><p>  % 'rbf' Gaussian Radial Basis Function kernel</p><p>  % 'mlp' Multilayer Perceptron kernel (default s

110、cale 1)</p><p>  % function A kernel function specified using @,</p><p>  % for example @KFUN, or an anonymous function</p><p><b>  %</b>&

111、lt;/p><p>  % A kernel function must be of the form</p><p><b>  %</b></p><p>  % function K = KFUN(U, V)</p><p><b>  %</b></p><

112、;p>  % The returned value, K, is a matrix of size M-by-N, where U and V have M</p><p>  % and N rows respectively. If KFUN is parameterized, you can use</p><p>  % anonymous functions

113、to capture the problem-dependent parameters. For</p><p>  % example, suppose that your kernel function is</p><p><b>  %</b></p><p>  % function k = kfun(u,v,p1,p

114、2)</p><p>  % k = tanh(p1*(u*v')+p2);</p><p><b>  %</b></p><p>  % You can set values for p1 and p2 and then use an anonymous function:</p><p> 

115、 % @(u,v) kfun(u,v,p1,p2).</p><p><b>  %</b></p><p>  % SVMTRAIN(...,'POLYORDER',ORDER) allows you to specify the order of a</p><p>  % polynomial kern

116、el. The default order is 3.</p><p><b>  %</b></p><p>  % SVMTRAIN(...,'MLP_PARAMS',[P1 P2]) allows you to specify the</p><p>  % parameters of the Multilayer

117、 Perceptron (mlp) kernel. The mlp kernel</p><p>  % requires two parameters, P1 and P2, where K = tanh(P1*U*V' + P2) and P1</p><p>  % > 0 and P2 < 0. Default values are P1 = 1 and

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論