版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、卵巢癌預后因素評價和生存率預測研究,北京大學概率統(tǒng)計系,房祥忠,1,提綱,背景介紹資料特征處理屬性數(shù)據(jù)的兩步回歸方法分類樹回歸方法方法比較總結,2,背景介紹,向大家介紹是一個生存分析實際案例分析卵巢腫瘤是女性常見的三大惡性腫瘤之一,死亡率居婦科惡性腫瘤首位因卵巢癌早期無癥狀,發(fā)病隱匿,且缺乏有效的診斷方法,診斷時多為晚期,生存率較低為提高患者生存率,醫(yī)生們做了許多努力和嘗試,特別是提高和改善患者預后,3,背景介紹,影響卵
2、巢癌預后的因素很多,在疾病進展過程中,多種因素共同影響患者預后如何根據(jù)患者的不同情況,綜合判斷患者預后狀況,預測生存率是迫切需要解決的問題,4,背景介紹,本文采用的數(shù)據(jù)集是從全國七家醫(yī)院5年搜集的879例卵巢癌患者臨床隨訪數(shù)據(jù)。數(shù)據(jù)集包括存活期、年齡、原發(fā)灶大小、病理類型、臨床分期、淋巴是否轉移、病理分級、手術殘余灶大小、化療方法、化療方案、CA125等風險因素。,5,背景介紹,這些風險因素多為多類別的分類變量,在做回歸分析時往往需
3、要引入啞變量。當分類變量個數(shù)和水平較多時,需要引入的啞變量數(shù)目與樣本量相比較會很大。如果直接做回歸,它們之間的共線性會導致模型參數(shù)估計失真甚至反序等諸多問題,這也是我們在解決實際問題中遇到的最大困難。,6,背景介紹,針對該問題,我們嘗試了兩步回歸法和CART-COX方法。并將CART-COX方法與基于Cox模型的直接回歸法和兩步回歸法做比較。結果表明,從擬合及預測的總體效果看,CART-COX方法比兩步回歸法和直接回歸都更占優(yōu)勢
4、。最后,為方便醫(yī)生使用,我們給出了生存率表。,7,提綱,背景介紹資料特征處理屬性數(shù)據(jù)的兩步回歸方法分類樹回歸方法方法比較總結,8,資料特征,數(shù)據(jù),9,資料特征,在建立多變量Cox模型前,我們需要確定每個協(xié)變量分層是否合理。多類別分類變量需要按照不同水平引入啞變量。以某一水平為基準層,其它各水平的Cox模型回歸系數(shù)實際上是相對于該基準層危險率的變動。原始數(shù)據(jù)各變量水平的劃分是按臨床危險程度由低到高排列的,所以若協(xié)變量水平
5、劃分合理,它們的回歸系數(shù)應該單調遞增。,10,資料特征-分期,原始數(shù)據(jù)中臨床分期按國際慣用的FIGO分期,共有10個水平。最初我們按照這種分層做Cox回歸,發(fā)現(xiàn)系數(shù)不單調,并且反復出現(xiàn)波動。由于該變量水平劃分非常細致,且劃分標準對醫(yī)生的臨床經(jīng)驗程度依賴很高,不是非??陀^。所以在保證每層系數(shù)顯著且保序的前提下,根據(jù)醫(yī)生建議,我們重新劃分了臨床分期。結果見下表:,11,資料特征-分期,12,資料特征-淋巴結是否轉移,原始數(shù)據(jù)中淋巴結
6、是否轉移分為三個水平,未轉移,轉移,未清。Cox回歸時發(fā)現(xiàn)未清這一水平的系數(shù)是負值,也就是說,手術未清情況下的危險率比淋巴未轉移的低,這與我們的初衷是違背的。,13,資料特征-淋巴結是否轉移,重新翻查病例資料并與醫(yī)生討論得知,部分病人淋巴結未清不是因為病變范圍廣,無法進行淋巴結清除術,而是病情并不嚴重才沒有清除,這部分患者生存期相對較長。他們對生存期的預測是一種干擾。理論上講應當將這部分病人按照淋巴結是否轉移重新分,但種操作無法實現(xiàn)
7、。未清病例占總樣本比例較大(30%),我們不能刪除所有未清樣本,所以后面的分析我們不再考慮該變量。,14,資料特征-化療方法,原始數(shù)據(jù)中化療分為三層,規(guī)范化療,不規(guī)范化療,未化療。按照這三個水平Cox回歸時發(fā)現(xiàn),未化療組的危險率與規(guī)范化療組接近,并且數(shù)據(jù)顯示未化療組的平均壽命幾乎是不規(guī)范化療組的2倍!這是一個非常可疑的結果。,15,資料特征-化療方法,經(jīng)過分析發(fā)現(xiàn),化療的分層同淋巴結是否轉移有相似的問題。未化療組實際上包括兩類病人
8、,一是病情嚴重,病人認為沒有必要從而放棄化療;二是手術成功,病情輕微,病人覺得可以不用做化療。這一水平的存在嚴重干擾了分析化療對生存率的影響作用。所幸未化療組僅占總樣本2.38%,征得醫(yī)生同意,我們刪除了未化療組樣本。最后化療變量只包括兩個水平,規(guī)范化療與不規(guī)范化療。,16,資料特征-其它因子,年齡,病理分級,術后殘余灶直徑這三個變量在原始數(shù)據(jù)中的分層比較合理,我們不再重新劃分。,17,Cox比例風險回歸模型,Cox比例風險回歸模
9、型(Cox’s proportional hazards regression model),簡稱Cox回歸模型 該模型由英國統(tǒng)計學家D.R.Cox于1972年提出,主要用于腫瘤和其它慢性病的預后分析,也可用于隊列研究的病因探索。其優(yōu)點:多因素分析方法利用截尾數(shù)據(jù),Cox模型的基本形式,h(t,X)—t時刻風險函數(shù)、風險率或瞬時死亡 率(hazard function)。h0(t)—基準風險函數(shù),即
10、所有變量都取0時t 時刻風險函數(shù)。X1、X2、…、Xp—協(xié)變量、影響因素、預后 因素。β1、 β2、…、 βp—回歸系數(shù)。,β>0,RR>1,說明變量X增加時,危險率增加,即X是危險因素。β<0,RR<1,說明變量X增加時,危險率下降,即X是保護因素。β=0,RR=1,說明變量X增加時,危險率不變,即X是危險無關因素。,,,資料特征-單因素分析,按照協(xié)
11、變量重新分層結果,用Kaplan-Meier法做單因素分析,檢驗各層對生存率影響差異顯著性重新分層后的5個協(xié)變量對生存率影響都顯著,21,單因素分析- Cox回歸結果,對每個重新分層的協(xié)變量單獨做Cox回歸以上各變量模型都是顯著成立的,并且系數(shù)單調遞增,是合理的。,22,比例危險率假設檢驗Kolmogorov-Type Supremum 檢驗,可以看到,所有的變量不能拒絕PH假定的原假設,23,病情分期各
12、層對數(shù)累積危險率曲線,病情分期各層累積危險率曲線,而對數(shù)累積危險率函數(shù)曲線應該相互平行??梢钥吹剑@些變量基本上沒有偏離危險率成比例假定,如果PH假定成立,各累積危險率函數(shù)曲線應該是通過原點的直線;,24,化療各層累積危險率曲線,化療各層對數(shù)累積危險率曲線,25,年齡各層累積危險率曲線,年齡各層對數(shù)累積危險率曲線,26,病理分級各層累積危險率曲線,病理分級各層對數(shù)累積危險率曲線,27,術后殘余灶直徑各層累積危險率曲線,術后殘余灶直徑各
13、層對數(shù)累積危險率曲線,28,啞變量多因素直接Cox回歸,與醫(yī)生討論后,我們選取785例樣本進行多變量回歸。由于隨訪時間較長,這785例樣本中僅有7例右刪失,壽終樣本778例,刪失率為0.89%。由于生存時間存在結點,我們采用Efron偏似然函數(shù)。候選協(xié)變量共5個,分別是臨床分期、術后是否進行規(guī)范化療、年齡、病理分級、術后殘余灶直徑大小。我們引入9個啞變量直接作Cox回歸,結果如下:,29,啞變量多因素Cox模型直接回歸結果,30
14、,啞變量多因素Cox模型直接回歸,可以看到,若取檢驗水平為0.1,這9個變量中有2個不顯著,即年齡的第二層、分級的第二層,并且分級第二層的系數(shù)為負。單變量回歸時,各個變量回歸系數(shù)都是顯著而且保序的,而多變量回歸卻出現(xiàn)這種不合理現(xiàn)象這很可能是由變量間的共線性導致。一般地,逐步回歸可以解決共線性,但此時的協(xié)變量是幾組特殊的啞變量,即需要一組啞變量來表示一個風險因素,我們不能簡單地刪除某個不顯著的啞變量。,31,啞變量多因素Cox模型逐
15、步回歸結果,下表是取置信水平為0.1,逐步回歸得到的結果,變量的陳列順序是它們被選入模型的先后順序。,32,啞變量多因素Cox模型逐步回歸結果,分級和年齡都只入選了一層,我們無法解釋這個結果的實際臨床意義。這使得我們需要考慮其它方法來解決這個問題解決這個問題一個很自然的想法是用有實際意義的數(shù)值來標記風險因素的不同水平。兩步回歸法就是基于這種想法發(fā)展而來。,33,提綱,背景介紹資料特征處理屬性數(shù)據(jù)的兩步回歸方法分類樹回歸方法方
16、法比較總結,34,兩步回歸法,兩步回歸法總共分兩步。首先,對單個協(xié)變量各分層作Cox回歸,用得到的系數(shù)標記各層,把這些系數(shù)作為該變量不同水平下的取值,這些系數(shù)的大小是對風險的一種衡量。例如,年齡各層的回歸系數(shù)是(0 0.36906 0.69352),若某樣本屬于第二層,就令該樣本年齡變量取值為0.36906。在所有協(xié)變量標記完成后,就可以把它們當做作連續(xù)型變量做多變量Cox回歸。,35,兩步回歸法,首先,用前面表中單變量Cox回
17、歸系數(shù)標記5個協(xié)變量然后,把它們當做連續(xù)變量進行多變量Cox回歸結果如下:,36,兩步回歸法,若取水平為0.1,各個變量都是顯著的。結合量表的結果可以得到兩步回歸法的最終模型。從下表的結果可以看到,兩步回歸法得到的結果是合理的。我們能夠直觀地看出各協(xié)變量對生存率影響大小。影響最大的風險因素是臨床分期,其次是術后化療是否規(guī)范,這與前面逐步回歸最先選入模型的兩個協(xié)變量一致。后面我們將這種方法與其他方法做進一步比較。,37,最終C
18、ox模型回歸系數(shù),38,兩步回歸法,Pii =X’ib 在臨床中稱為樣本 的預后指數(shù)為了考察擬合效果,我們將全體樣本按預后指數(shù)的大小分為低危、中危、高危三組根據(jù)每組平均預后指數(shù)由兩步回歸法計算得到每組生存函數(shù)作為模型預測生存函數(shù)再用Kaplan-Meier法估計每組生存函數(shù)作為實際生存函數(shù),通過比較實際生存曲線和模型預測生存曲線來判斷模型的擬合效果下圖是比較結果。圖中星號是真實生存率,曲線為由兩步回歸法得到的預測生存率??梢?,除
19、了低危組在40至80月這個區(qū)間有些偏離外,中危組,高危組都較好地擬合了數(shù)據(jù)集。,39,低危組兩步回歸生存率擬合情況,中危組兩步回歸生存率擬合情況,高危組兩步回歸生存率擬合情況,40,兩步回歸最理想和最惡劣情況下預測生存率對比,通過上面的模型我們可以得到S0(t)。下圖是病人在最理想和最惡劣情況下的預測生存概率。所有患者的生存率在這兩條曲線之間。,兩步回歸最理想和最惡劣情況下預測生存率對比,41,兩步回歸法預測生存概率,,,42,提綱,背
20、景介紹資料特征處理屬性數(shù)據(jù)的兩步回歸方法分類樹回歸方法方法比較總結,43,分類回歸樹(CART),1970 年,美國4 位統(tǒng)計學家Breiman, Friedman, Olshen, and Stone (BFOS)分析了當時某些統(tǒng)計分析方法存在的缺陷,提出了一種新的方法—分類與回歸樹 (Classification and Regression Trees, CART)。,44,分類與回歸樹(CART),CART包括分類樹(
21、classification tree)和回歸樹(regression tree)兩部分。分類樹的目標變量(target)是分類變量,回歸樹的目標變量是連續(xù)變量。CART是一種具有縱向分析特征的樹型結構,由樹節(jié)點(node)和連線組成,在末端的樹節(jié)點又稱為葉節(jié)點(leaf)。它采用一種二分遞歸分割技術,總是將當前樣本集分割為兩個子樣本集,使得樹中的每個非葉節(jié)點都有兩個分枝,因此它實際上是一種結構簡潔的二叉樹。,45,CART-COX
22、方法,將CART與Cox模型結合起來的想法由來已久,很多學者從不同角度進行了多方面嘗試。Hongshik Ahn and Wei-Yin Loh (1994)以Cox殘差作為分割節(jié)點的準則。XiaoGuang Xu and Chih-Ling Tsai (2005)將葉節(jié)點作為協(xié)變量線性組合的補充部份引入危險率函數(shù),通過極大化偏似然函數(shù)來進行分枝操作。,46,CART-COX方法,本文采用的CART-COX方法實際上是一種兩階段模型,
23、它將CART與Cox模型結合使用。第一階段,用CART將樣本分到各個葉節(jié)點中,用啞變量標記,這些啞變量定義為新的協(xié)變量。第二階段,對新的協(xié)變量做多變量Cox回歸。,47,CART-COX方法,,48,CART-COX方法實例分析,處理這批數(shù)據(jù)時,選取最優(yōu)子樹時采用了驗證集生存率平均預測偏差最小準則回歸樹的輸入變量是按照前面劃分的協(xié)變量從原始樣本集中分層抽取90%的樣本作為訓練集,剩下的10%作為驗證集,總共進行1000次抽取在
24、計算驗證集Cox模型生存率平均預測偏差時,我們按照預后指數(shù) 值將驗證數(shù)據(jù)集分為高危,中危,低危三組分別計算分組時保證每組樣本量大致相等,計算平均預測偏差進行比較從而得到全局最優(yōu)子樹,49,CART-COX方法確定的葉節(jié)點,50,CART-COX方法定義新的風險因素,51,CART-COX方法回歸結果,52,CART-COX方法原始風險因素相對重要性,53,CART-COX方法原始風險因素相對重要性,綜合上面三個表中結果來看,新定義的風
25、險因素比較符合臨床實際情況。FIGO分期是國際上唯一被公認的最重要的卵巢癌預后因素表中1類是原始分類的I,II兩期,屬于卵巢癌早期發(fā)展階段,這個階段確診的患者生存期一般會比較長,危險率最低,CART-COX方法將其作為基準危險率。而2,3類是原始分類的III,IV兩期,是卵巢癌晚期,該階段的生存期預測復雜很多,需要綜合考慮多種風險因素。,54,CART-COX方法原始風險因素相對重要性,化療是否規(guī)范是第二最重要的預后因素,模型中危
26、險率最高的患者群是處于癌癥晚期階段但沒有進行規(guī)范化療的病人。這些與直接回歸,兩步回歸法得到的結論一致。危險率第二大的是進行了規(guī)范化療但年齡較大的患者術后殘余灶直徑的大小以及分級的重要性遠遠低于前三個風險因素。,55,CART-COX方法原始風險因素相對重要性,下面三個圖是把數(shù)據(jù)集分為低危,中危,高危三組后用CART-COX方法擬合得到的結果。圖中星號是真實生存率,曲線為CART-COX方法預測的結果??梢?,新定義的風險因素能夠很好地
27、擬合數(shù)據(jù)集。,56,57,CART-COX方法預測生存率對比,,58,提綱,背景介紹資料特征處理屬性數(shù)據(jù)的兩步回歸方法分類樹回歸方法方法比較總結,59,基于卵巢癌數(shù)據(jù)三種方法的對比,對于預后風險因素影響分析,三種方法都認為臨床分期和是否進行規(guī)范化療是最重要的預后風險因素。但是對于病理分級、年齡、術后殘余灶大小這三個變量的排序結果不盡相同。用CART-COX方法重新定義風險因素過程中發(fā)現(xiàn),它們三個的絕對影響同分期和化療相比差
28、距很大,我們要更多地考查它們共同作用的結果。通過我們的研究不僅方便臨床醫(yī)生綜合判斷患者預后情況,也便于臨床工作中醫(yī)生與患者進行交流,鼓勵患者配合治療,提高生存率。,60,生存率擬合效果的比較低中高危組生存率差異統(tǒng)計量,61,生存率擬合效果的比較,從上面結果可以看出,CART-COX方法的表現(xiàn)比較穩(wěn)定,三組里的擬合效果都比直接回歸好。兩步回歸法在低危組中表現(xiàn)最為突出,而在高危組中效果較差。,62,生存率預測效果的比較,可以看到,對于
29、這組卵巢癌數(shù)據(jù),預測方面CART-COX方法比直接回歸、兩步回歸法效果都要好一些。中危組里兩步回歸法比直接回歸好,其它兩組中的表現(xiàn)要差一些。,63,總結,在處理協(xié)變量是分類變量的數(shù)據(jù)時,一般首先要引入啞變量。當這些啞變量存在共線性導致參數(shù)估計失真,逐步回歸等傳統(tǒng)的方法無法解決時,可以考慮本文所嘗試的兩種方法。兩步回歸法對處理小樣本高刪失率的情況比直接回歸更加有效,但是對于參數(shù)估計的無偏性有一定影響。從這組卵巢癌數(shù)據(jù)來看,兩步法擬合
30、及預測生存率的效果都不如CART-COX方法。實際上,由于CART可以彌補傳統(tǒng)Cox模型很多缺憾,與其相比,CART-COX方法優(yōu)勢很多,64,CART-COX方法優(yōu)勢1,解決協(xié)變量共線性:這是我們嘗試CART-COX方法的最初目的。對于這組卵巢癌數(shù)據(jù),在擬合及預測方面,CART-COX方法比直接回歸的效果要好一些。當備選協(xié)變量數(shù)目特別龐大時,我們認為它的優(yōu)勢會更加明顯。,65,CART-COX方法優(yōu)勢2,改善風險率與協(xié)變量的非線
31、性關系:Cox模型要求風險率與協(xié)變量線性相關,當這種假定不成立時,Cox模型失效。由于CART可以解釋變量間復雜的非線性關系,所以如果選用協(xié)變量與風險率線性關系的改善程度作為最優(yōu)子樹的選取準則,CART-COX方法可在某種程度上改善這種情況。實際上,由于CART不依賴于許多不符現(xiàn)實的假設,很多時候都可以通過它重新定義變量,從而符合第二階段模型的假設要求。,66,CART-COX方法優(yōu)勢3,新定義的風險因素解釋性強:CART的結果有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論