版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、中國是農業(yè)大國,雖然農業(yè)產值占GDP的比重不到10%,但農業(yè)就業(yè)人口仍占到了總就業(yè)人口的28.3%,農業(yè)仍舊是國民經濟和社會發(fā)展的基礎。在科學研究中,農業(yè)經濟以及農業(yè)管理的研究仍是必要和重要的,而這些農業(yè)經濟管理研究很多都需要開展農業(yè)經濟調查以獲取數據,然后在數據分析的基礎上得到結論。
跟任何調查一樣,農業(yè)經濟調查會遇到一個幾乎無可避免的問題:缺失值,農戶的無回答或者調查人員的疏忽都會讓農業(yè)經濟調查數據產生缺失值。但跟其它調查
2、,如市場調查、民意調查不同的是,農業(yè)經濟調查有很強的特殊性,比如農業(yè)經濟調查仍使用古老的人員訪問方法、調查問卷中存在大量的開放性問題、能獲得較多輔助信息、隨機性不高但農戶調查配合度較高等等。
結合農業(yè)經濟調查的特點和數據缺失的原因,提出本研究特定的假設條件:調查數據來自一個正態(tài)總體;調查數據是隨機獲得的;變量類型以數量變量為主;數據的缺失模式是單一缺失和一般缺失;數據的缺失機制是完全隨機缺失(MCAR)和隨機缺失(MAR)。基
3、于這些基本假設,本研究提出了農業(yè)經濟調查數據的缺失值處理構建一套較系統(tǒng)的模型和方法。這套模型其實是一個完整的邏輯體系,但為了敘述方便分成三部分:刪除模型、單一插補模型和多重插補模型,每一個模型又包括很多具體的方法。
本研究的基本邏輯是,根據假設和條件提出一個模型,在這個模型中提出基本方法,利用理論分析和模擬分析其缺陷,然后改進提出新的方法;如果假設和條件改變,又使用新的模型,為新的模型尋求方法并分析改進。
刪除是缺失
4、值處理的最基礎模型。大部分農業(yè)經濟調查人員都采取該模型將缺失值當作無效數據刪除,大部分的數據分析軟件也默認刪除缺失值。刪除一般是指成列刪除,也就是刪除所有含缺失值的個案,留下完整數據。當數據的缺失比重很低時,刪除缺失值倒也無所謂,但是當數據缺失比重較大或者變量很多時,就會導致大量個案被刪除。本文用不同的缺失比例模擬隨機產生農業(yè)經濟調查缺失數據,分析發(fā)現當變量很少時,缺失比重略高一點刪除比例也不會太高,但當變量稍微多一點,哪怕很小的缺失比
5、重都致使大量的數據被刪除。
一個可供替代的刪除方法是,如果我們不需要完整數據,只要使用可用的個案計算參數估計,這樣就可以盡量減少數據刪除,這就是成對刪除。但成對刪除會讓估計量來自不同大小的樣本,造成很多參數估計麻煩。此外本文的模擬分析發(fā)現,其實成對刪除在對缺失農業(yè)經濟調查的相關關系估計上并沒有顯著超過成列刪除。
當數據不是完全隨機缺失(MCAR)時,無論是成列刪除還是成對刪除都會產生有偏的估計??梢岳幂o助信息將目標
6、缺失變量分層,根據各層的完整觀測數據計算各層均值,然后再將各層均值以缺失概率作權數加權平均,這樣就可以一定程度上彌補成列刪除估計的有偏性,這就是加權調整的方法。本文通過模擬生成隨機缺失(MAR)下的目標缺失變量和與之正相關的輔助變量,然后加權調整方法的獲得的均值估計非常接近真值,而成列刪除的均值估計明顯偏小。
用刪除方法刪掉的數據信息也許是有用的,再者對農業(yè)經濟調查數據因為缺失值的存在而粗暴地刪除,從心理上也是難以接受的,對數
7、據的缺失值進行插補也許是一種更好的模型。插補分為單一插補和多重插補,前者指為缺失值提供單一插補值,后者是指對每一個缺失值,其插補值不止一個。插補的基本思想是根據數據的后驗分布,用數據的觀測部分為缺失部分提供合理的填補值。
簡單均值插補是將目標缺失變量的觀測部分的均值作為缺失值的插補,是最先能想到的單一插補方法。但簡單均值插補的插補值完全集中于數據的中心位置,通過理論分析容易發(fā)現其顯著低估了總體方差。一個解決方法是在其基礎上加上
8、隨機誤差項,這就是隨機均值插補。進一步本文還做了一個模擬研究,那就是模擬產生變量正相關的農業(yè)經濟調查缺失數據進行均值插補,最后發(fā)現其相關系數矩陣和協(xié)方差矩陣中的值明顯小于真實相關系數矩陣和協(xié)方差矩陣的值。但無論是簡單均值插補還是隨機均值插補在數據非完全隨機(MCAR)的情況下,估計都是有偏的。分層均值插補可以修正這個問題,分層均值插補是指將目標缺失變量按照輔助信息分層,然后再各層中進行均值插補,這樣其估計是無偏的。
分層均值插
9、補雖然解決了一般均值插補的估計有偏問題,但插補值仍過于集中,回歸插補可以解決這個問題。簡單回歸插補是指根據農業(yè)經濟調查缺失數據的后驗分布,利用數據的觀測部分產生缺失部分的回歸預測值,通過理論分析發(fā)現其對總體方差的估計仍偏小,可以加上隨機殘差項,這就是隨機回歸插補。將回歸插補和均值插補對比模擬研究顯示,回歸插補是一個比均值插補更好的方法,尤其是隨機回歸插補有很好的插補效果,而簡單均值插補是最不被推薦的。
如果農業(yè)經濟調查缺失數據
10、沒有明顯的后驗分布,熱平臺插補方法會是更好的選擇。熱平臺方法直接從數據的完整部分產生缺失部分的插補值,其插補值一般比較穩(wěn)健,不用擔心像回歸插補一樣產生異常的插補值。一個簡單的熱平臺插補是從完整觀測數據中簡單隨機抽樣產生插補值,這就是簡單隨機插補。如果數據是隨機缺失(MAR)的一個更好的方法是利用輔助信息將目標缺失變量分層,然后在各層的完整觀測數據中隨機產生該層的插補值,這就是分層隨機插補。熱平臺插補還有一個很有效率的方法,就是利用輔助變
11、量,找到缺失值最接近的觀測值作為自己的插補值,這就是最近距離方法。本文的一個針對熱平臺插補和均值插補、回歸插補進行對比的模擬分析發(fā)現,在完全隨機缺失(MCAR)下,基于熱平臺的隨機插補效果顯著好于均值插補,但可能比回歸插補略差。
根據單一插補后的數據進行估計檢驗時,其標準誤差常常是被低估的,多重插補是解決這個問題的最有效的模型。多重插補的基本思想是,對同一缺失值產生多個插補值,這樣就產生多個“完整”數據,然后對每一個“完整”數
12、據估計檢驗,最后將其匯總成一個總的估計檢驗結果。
基于單一缺失的一元正態(tài)模型仍然利用回歸插補產生插補值,但其從兩個角度讓缺失值的不同插補值差異加大,一是跟回歸插補一樣在插補值中加入殘差項,二是讓每一次插補的回歸模型參數隨機產生。回歸模型參數的隨機產生方法有兩個,一是根據回歸模型參數的后驗分布隨機產生模型參數,這就是貝葉斯方法;二是用數據的Bootstrap樣本來產生模型參數,這就是Bootstrap方法。本文首先研究分析了這兩
13、個方法的假設和理論,然后為了比較這兩個方法的應用效果,在完全隨機缺失的假設下模擬產生缺失數據,然后分別用貝葉斯法和Bootstrap法進行插補,并跟單一插補進行比較,結果發(fā)現無論是貝葉斯法還是Bootstrap方法,都有很好的估計檢驗效果,其估計的準確性顯著超過單一插補。
多元正態(tài)模型是基于一般缺失模式的農業(yè)經濟調查缺失數據的插補。多元正態(tài)模型,由于其缺失模式的復雜性,為缺失值的插補提出了更大的挑戰(zhàn)。本文研究了其中最為廣泛應用
14、的聯(lián)合分布方法以及條件分布方法的假設和理論。更進一步本文模擬了一個多變量隨機缺失的農業(yè)經濟調查數據,然后運用這兩個方法進行插補,結果顯示兩者都有很好的估計檢驗效果,而且兩者之間差異并不大,都是很好的方法。
在理論和模擬分析的基礎上,本文對一個實際農業(yè)經濟調查缺失數據進行了應用分析并取得較好的效果。通過實際應用分析可以得到一個基本的結論,那就是如果數據基本符合缺失值處理模型的假設,多重插補優(yōu)于單一插補,而單一插補又優(yōu)于刪除;如果
15、不符合假設,比如出現極端值,那么基于明確后驗分布的缺失值插補效果會大打折扣,而此時基于熱平臺的插補方法會得到更穩(wěn)健的結果。
基于本研究,為農業(yè)經濟管理研究人員在缺失值處理前和缺失值處理中兩個階段分別給出了一定的具體建議。在缺失值處理前建議:調查前通過良好的問卷設計減少缺失值產生;調查中與通過農戶良好的溝通減少缺失值產生;及時處理無意義值,以免跟缺失值混淆;不要用不科學的方法消除缺失值。在缺失值處理中建議:正視缺失值問題;盡量不
16、要刪除缺失值;善于利用分類變量處理缺失值;插補缺失值前對缺失數據進行描述考察;單一插補時選擇回歸插補;在數據一般缺失時使用多重插補。
本研究可能的創(chuàng)新有:
(1)本文率先關注了農業(yè)經濟調查數據的缺失值處理問題,并基本厘清其學理。雖然在農業(yè)經濟調查中缺失值無可避免,但絕大部分農業(yè)經濟管理研究人員都將其忽略,更鮮有人對其系統(tǒng)研究,使得該領域的研究特別是國內研究基本空白,這也是作者開啟這項研究的重要原因。
(2)
17、本文專門針對中國農業(yè)經濟調查的特點模擬缺失數據進行分析,具有一定創(chuàng)新性和開創(chuàng)性。本文針對中國農業(yè)經濟調查數據的缺失值處理,提出了一整套具體而又可行的模型和方法體系,為了分析這些方法的可行性和使用條件,并對不同模型和方法的效果進行比較,采用了理論分析和模擬分析。而其中的很多模擬分析針對中國農業(yè)經濟調查特點、缺失模式、缺失機制進行了專門的設計。
(3)本文為農業(yè)經濟調查數據中缺失值實際處理和應用自編了一套具體的基于R軟件的程序代碼
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農業(yè)經濟轉型期農業(yè)經濟發(fā)展學科的思考
- 農業(yè)經濟問題的分析方法探討
- 農業(yè)經濟學
- 古代中國的農業(yè)經濟
- 農業(yè)經濟轉型期農業(yè)經濟管理學科發(fā)展的認識
- 農業(yè)經濟與管理試題及答案
- 農業(yè)經濟學重點
- 農業(yè)經濟增長因素探析
- 當前我國農業(yè)經濟的發(fā)展及現狀
- 《農業(yè)經濟學》電子教案(全)農業(yè)經濟學鐘甫寧
- 《農業(yè)經濟學》電子教案全農業(yè)經濟學鐘甫寧
- 農業(yè)經濟管理7
- 農業(yè)經濟管理題庫
- 農業(yè)經濟學習題
- 農業(yè)經濟學試卷
- 農業(yè)經濟學習題
- 淺談農業(yè)經濟的發(fā)展論文
- 低碳農業(yè)經濟解析
- 農業(yè)經濟學專題
- 非相關文獻知識發(fā)現方法及在農業(yè)經濟學中的應用.pdf
評論
0/150
提交評論