2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩111頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、研究背景:
  隨著醫(yī)療衛(wèi)生信息化的不斷發(fā)展,對分析方法的需求不斷增加,并且“真實世界的研究”在目前越來越受到關(guān)注,隨著數(shù)據(jù)集收集范圍的不斷擴大,數(shù)據(jù)來源常常包括不同的地區(qū)、不同的醫(yī)院,如全市醫(yī)院信息數(shù)據(jù)、全國衛(wèi)生服務(wù)調(diào)查數(shù)據(jù)等。這些數(shù)據(jù)具有層次結(jié)構(gòu)特征,對于這樣的數(shù)據(jù)進行分析,首先需要考慮數(shù)據(jù)中不同水平單位對結(jié)果可能產(chǎn)生的影響,對于此類問題,多水平分析模型可以很好地進行處理。多水平模型將方差成分模型和多元回歸模型相結(jié)合,把廣義線

2、性模型中的差異拆分為固定效應(yīng)和隨機效應(yīng)兩部分,從而更加準(zhǔn)確地估計處理/暴露因素的效應(yīng)值。在利用多水平模型對具有層次結(jié)構(gòu)特征的數(shù)據(jù)進行分析時,不僅能夠很好地控制不同的水平因素對結(jié)果所產(chǎn)生的影響,而且通過納入多個已知觀測的混雜因素,能較好地控制這些已知觀測混雜因素對結(jié)果產(chǎn)生的影響。也有研究者將傾向性評分法(Propensity Score Analysis,PSA)引入多水平模型,采取傾向性評分匹配法、分層法和加權(quán)法對數(shù)據(jù)集中的已知觀測混雜

3、因素進行控制,從而更好地獲得準(zhǔn)確的結(jié)果。但是,目前大部分衛(wèi)生服務(wù)方面的調(diào)查是關(guān)于人群健康方面的普查,當(dāng)研究者利用這樣的數(shù)據(jù)進行某專項疾病或健康方面的研究時,通常所需的變量并不能完全滿足研究要求,研究結(jié)果通常會受到未知觀測混雜因素的影響,如分析每周運動時間對自身健康狀況的影響,數(shù)據(jù)中已包括了一些已知觀測混雜因素(年齡、BMI、患病情況、吸煙、喝酒等),但對于本人的心情、家庭關(guān)系、病情輕重程度等因素調(diào)查數(shù)據(jù)中可能未包含或難以測量,這些因素同

4、樣可能會影響到分析結(jié)果的準(zhǔn)確性,而目前這些常用于具有層次結(jié)構(gòu)特征數(shù)據(jù)的分析方法并不能控制這方面的影響。在普通數(shù)據(jù)分析時,可以利用工具變量方法對未知觀測混雜因素進行控制,在本研究中,我們將工具變量的思想引入多水平模型數(shù)據(jù)分析中,用以處理未知觀測混雜因素所產(chǎn)生的影響。
  研究目的:
  目前,對于層次結(jié)構(gòu)特征數(shù)據(jù)中未觀測混雜偏倚的控制鮮有研究進行探索,本研究針對此問題,將構(gòu)建出多水平工具變量模型(Multilevel Inst

5、rumental Variable,MIV),從而較為全面地控制層次結(jié)構(gòu)特征數(shù)據(jù)中水平因素、已知觀測混雜因素和未知觀測混雜因素對結(jié)果所產(chǎn)生的偏倚,并且基于資料中數(shù)據(jù)類型的不同(連續(xù)性變量和分類變量),將構(gòu)建出不同的多水平工具變量模型,以分別適用于連續(xù)型變量和分類變量資料分析中。本研究還將對所構(gòu)建的模型進行準(zhǔn)確性和精確性方面的評價,探索各種數(shù)據(jù)條件下所應(yīng)當(dāng)采用的最佳參數(shù)估計模型,在模型構(gòu)建的基礎(chǔ)上,筆者引入自助法(Bootstrap),使

6、模型估計得到的結(jié)果更加可靠。
  研究方法:
  研究首先進行數(shù)據(jù)模擬,數(shù)據(jù)的模擬過程主要根據(jù)數(shù)據(jù)類型的不同分為3部分,在數(shù)據(jù)模擬過程中將考慮到不同強度的未知觀測混雜因素和不同強度的工具變量,從而較為全面對模型進行評價。
  (1)模型構(gòu)建
  在處理/暴露因素和結(jié)局變量為連續(xù)型變量情況下,將構(gòu)建出兩階段最小二乘多水平工具變量模型與兩階段殘差納入多水平工具變量模型;在處理/暴露因素和結(jié)局變量為連續(xù)型變量且均存在層

7、次效應(yīng)情況下,將構(gòu)建出兩階段多水平回歸工具變量模型和兩階段多水平回歸殘差納入工具變量模型;在處理/暴露因素和結(jié)局變量為分類變量情況下,將構(gòu)建出兩階段logistic回歸多水平工具變量模型和線性回歸+logistic回歸多水平工具變量模型。在模型構(gòu)建的過程中我們還引入了自助法(Bootstrap),在本研究中自助法采用的是分層個例重復(fù)抽樣法,根據(jù)原始樣本量的大小進行等樣本重復(fù)抽樣,每次抽500次,然后用所構(gòu)建的模型對500個復(fù)樣本進行分析

8、。
  (2)模型評價
  模型評價部分將所構(gòu)建的多水平工具變量模型和普通多水平回歸模型所得的結(jié)果用四個指標(biāo)進行客觀科學(xué)的評價,分別為絕對偏倚、置信區(qū)間寬度、標(biāo)準(zhǔn)誤、置信區(qū)間覆蓋率。根據(jù)這四個指標(biāo)可以反映模型在不同數(shù)據(jù)情況下的準(zhǔn)確性和精確性,為后續(xù)模型的調(diào)整和應(yīng)用提供了科學(xué)根據(jù)。
  (3)實例分析
  最后將構(gòu)建的多水平工具變量模型應(yīng)用于實例分析中。實例分析數(shù)據(jù)來源于第五次全國衛(wèi)生服務(wù)調(diào)查數(shù)據(jù)(上海)。針對結(jié)局

9、變量和處理/暴露因素為連續(xù)型變量,本研究所選的實例為分析上海60歲以上老人每周體育鍛煉時間對其健康狀況的影響,男性和女性分別進行分析,其中可能存在的未知觀測混雜包括本人的心情、家庭關(guān)系、病情輕重程度等,結(jié)局變量采用歐洲五維健康量表(European quality of life5-dimensions,EQ-5D)評分,工具變量選擇為其愛人每周運動的次數(shù)。針對結(jié)局變量和處理/暴露因素為分類變量,本研究所選的實例為分析上海市60以上歲男

10、性是否吸煙對其是否患有高血壓的影響,其中可能存在的未知混雜包括基因特征、周圍環(huán)境因素等,工具變量選擇為其家人是否吸煙。實例分析中應(yīng)用普通多水平模型和模擬中所獲得的最優(yōu)多水平工具變量模型進行分析,并對不同方法所獲得的結(jié)果進行比較。
  研究結(jié)果:
  數(shù)據(jù)模擬的結(jié)果顯示,研究發(fā)現(xiàn)在資料中存在未知觀測混雜因素時,所構(gòu)建的多水平工具變量模型有較好的效果,具體如下:
  (1)處理/暴露因素和結(jié)局變量為連續(xù)型變量
  當(dāng)

11、不存在未知觀測混雜因素時,所有模型均能獲得較為理想的結(jié)果,但當(dāng)研究中存在未知觀測混雜因素時,普通多水平線性回歸模型和自助法多水平線性回歸模型會獲得偏倚較大的結(jié)果,偏差最大的出現(xiàn)在βu=6、αz=1時的普通多水平線性回歸模型中,其絕對誤差為-2.8219,但多水平工具變量的結(jié)果較為穩(wěn)定,當(dāng)βu=6、αz=5時兩階段最小二乘多水平工具變量模型、兩階段殘差納入多水平工具變量模型、自助法兩階段最小二乘多水平工具變量模型和自助法兩階段殘差納入多水

12、平工具變量模型結(jié)果的絕對偏倚分別為-0.0004、-0.0009、0.0012和0.0006。在四種多水平工具變量模型中,自助法引入的模型結(jié)果的置信區(qū)間較寬,提示結(jié)果更為保守,當(dāng)工具變量的強度增加時,其區(qū)間會相應(yīng)的變窄。
  (2)處理/暴露因素和結(jié)局變量為連續(xù)型變量且均存在層次效應(yīng)
  普通多水平線性回歸模型僅適用于無未知觀測混雜因素的數(shù)據(jù)中,該模型在數(shù)據(jù)中存在未知觀測混雜因素時所得的結(jié)果偏離金標(biāo)準(zhǔn)較大。雖然兩階段自助法兩

13、階段最小二乘多水平工具變量模型可以基本準(zhǔn)確估計得出處理/暴露因素的效應(yīng)值,但其置信區(qū)間過寬。兩階段多水平回歸工具變量模型、兩階段多水平回歸殘差納入工具變量模型、自助法兩階段多水平回歸工具變量模型和自助法兩階段多水平回歸殘差納入工具變量模型在不同的數(shù)據(jù)情況下均能得到理想的結(jié)果,其中自助法兩階段多水平回歸工具變量模型的準(zhǔn)確度和精確度總體最佳,當(dāng)βu=6、αz=5時該模型的絕對偏倚僅為0.0009。
  (3)處理/暴露因素和結(jié)局變量為

14、分類變量
  結(jié)果展示當(dāng)數(shù)據(jù)中無未知觀測混雜因素存在的情況下普通多水平logistic回歸模型所獲得結(jié)果最佳,但當(dāng)混雜因素存在時,普通多水平logistic回歸模型所得的結(jié)果將偏離金標(biāo)準(zhǔn)較遠,并且置信區(qū)間覆蓋率較低,自助法兩階段logistic回歸多水平工具變量模型和自助法線性回歸+logistic回歸多水平工具變量模型兩種模型在有未知觀測混雜因素數(shù)據(jù)情況下表現(xiàn)較好,點估計最接近所設(shè)的金標(biāo)準(zhǔn),但此兩個模型的置信區(qū)間受到工具變量強度

15、影響較大,在弱工具變量時,模型估計的結(jié)果過于保守,區(qū)間過寬,兩階段logistic回歸多水平工具變量模型和線性回歸+logistic回歸多水平工具變量模型兩種模型在各種數(shù)據(jù)情況下均未表現(xiàn)出很好的效果。
  實例分析的結(jié)果顯示,在分析每周運動時間同自身健康狀況間的關(guān)系時,普通多水平回歸模型和多水平工具變量模型均提示在60歲以上人群中,男性和女性每周運動時間同健康評分間存在正相關(guān)關(guān)系,但在男性中普通多水平回歸模型所得回歸系數(shù)為0.42

16、(0.41-0.43),多水平工具變量模型所得回歸系數(shù)為0.70(0.53-0.86),兩者相差約0.3,女性中,普通多水平回歸模型所得回歸系數(shù)為0.49(0.48-0.50),多水平模型所得結(jié)果為0.37(0.21-0.53),兩者相差約0.1。說明在該實例中,兩者都能較好地識別出感興趣的影響因素與應(yīng)變量之間的關(guān)系,但對關(guān)系大小的衡量存在差別。
  在分析60歲以上男性吸煙和患高血壓間關(guān)系時,普通多水平logistic回歸提示吸

17、煙為保護因素,OR值為0.74(0.65-0.83),此與目前所公認的結(jié)論相違背,但多水平工具變量模型提示吸煙是患高血壓的危險因素,OR值為5.05(1.40-18.26)。此項研究中僅納入五項協(xié)變量,很多高血壓的危險因素在衛(wèi)生服務(wù)調(diào)查中未收集,如家族史、血液生化指標(biāo)等,普通分析方法無法控制這些未知觀測混雜因素對結(jié)果產(chǎn)生的影響,從而得到了錯誤的結(jié)論,當(dāng)利用多水平工具變量模型對這些因素進行控制后,所得結(jié)果將更為可靠。
  研究結(jié)論:

18、
  本研究通過模擬研究和實例分析發(fā)現(xiàn)多水平工具變量模型均能很好地獲得較為準(zhǔn)確的結(jié)果。當(dāng)研究資料收集較全,均不存在十分重要的未知觀測混雜因素時,普通的分析模型即可獲得較好的結(jié)果。當(dāng)資料并非為專項研究調(diào)查,層次結(jié)構(gòu)特征數(shù)據(jù)中遺漏了較多或一些較為重要的影響因素時,普通分析模型將不再適用,可以采用本研究所構(gòu)建的多水平工具變量模型。當(dāng)針對連續(xù)性變量數(shù)據(jù)時,首先需要看數(shù)據(jù)中處理/暴露因素在水平2單位上是否存在異質(zhì)性,當(dāng)處理/暴露因素存在層級

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論