版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、目前語料庫語言學(xué)用于語言學(xué)研究的方法主要是基于語料庫的(corpus-based)方法和語料庫驅(qū)動的(corpus-driven)方法。基于語料庫的方法使用語料主要是為了解釋、檢測或例示傳統(tǒng)語言理論(的正確性)。語料庫驅(qū)動的方法則認為傳統(tǒng)語言理論與語言事實之間存在差異,基于語料庫的方法不著眼挑戰(zhàn)已有語言描敘或語言理論,沒有充分利用語料的潛能,從而不能對豐富的語言事實做出理想的解釋。語料庫驅(qū)動的方法主張:語言理論不應(yīng)先于語言事實,而只能由
2、之直接產(chǎn)生,同時還要要完整地反映所觀測到的語言事實(Tognini-Bonelli2001)。 Rayson(2002)則另外提出了一種用于語言學(xué)研究的數(shù)據(jù)驅(qū)動(data-driven)的方法。通過對以往研究的調(diào)查,他認為在確定待研究的語言特征方面前兩種方法均存在不足之處,那就是研究問題通常先于語言研究,差別只在于證實與質(zhì)疑,從而有可能遮蔽其他更普遍的語言特征的發(fā)現(xiàn)。Rayson的方法是運用頻率凸現(xiàn)(frequencyprofi
3、ling)和檢索(concordance)這兩個語料庫研究手段對經(jīng)過語義標(biāo)注的語料先進行宏觀分析,然后微觀分析,從而發(fā)現(xiàn)凸現(xiàn)的候選研究問題。他把這個語言發(fā)現(xiàn)過程概括為“建庫—標(biāo)注—抽取—問題—闡釋(build-annotate-retrieve-question-interpret)”。這種數(shù)據(jù)驅(qū)動方法產(chǎn)生的問題然后通過前兩種方法進行分析。 本文和Rayson同樣認為基于語料和語料驅(qū)動的方法各有適用的領(lǐng)域,無優(yōu)劣之別,但在確定語
4、言研究問題時需要先宏觀,后微觀,從而能夠發(fā)現(xiàn)以前被忽略的語言現(xiàn)象。和Rayson不同的是,本文提出的基于關(guān)鍵詞的數(shù)據(jù)驅(qū)動方法的宏觀發(fā)現(xiàn)過程不是基于語義的對比,而是基于詞匯的對比。提出這種方法的一個原因是語義標(biāo)注在國內(nèi)還不成熟,另一個原因是已有語料庫研究初步顯示基于詞匯和基于語義的語料庫研究都能對同一語料作出相似發(fā)現(xiàn)(ArcherandRayson2004;BakerandMcEnery2004;DeeganandShort2004)。
5、 基于關(guān)鍵詞的數(shù)據(jù)驅(qū)動方法的語言發(fā)現(xiàn)過程是“建庫—抽取—問題—闡釋”,亦即是,首先建立目標(biāo)語料庫作為要進行語言特征發(fā)現(xiàn)的對象,然后通過語料庫語言學(xué)的統(tǒng)計方法對目標(biāo)語料庫進行分析,在這個步驟中發(fā)現(xiàn)潛在的可供進一步分析的語言特征,最后提出相關(guān)問題并進行闡釋,闡釋的語言理論既可以是從分析中歸納得來的,也可以是傳統(tǒng)語言理論。其中“抽取”過程由三個子步驟構(gòu)成:第一步,提取關(guān)鍵詞;第二步(可選項),對關(guān)鍵詞進行搭配詞分析;第三步,對關(guān)鍵詞或其
6、搭配詞進行檢索。 本文的主要理論假設(shè)是:1)關(guān)鍵詞代表了目標(biāo)語料庫中顯著的語言現(xiàn)象(CollinsandScott1997),2)詞的意義主要由其上下文決定(Tognini-Bonelli2001)。 為了檢測基于關(guān)鍵詞的數(shù)據(jù)驅(qū)動方法的可行性,本文對西方經(jīng)濟學(xué)者所報道的中國經(jīng)濟進行了上述方法的一次個案分析。分析初步表明,在輔助語言特征發(fā)現(xiàn)方面,該方法是可行的。發(fā)現(xiàn)的主要問題是語言特征分類問題和語言特征的選擇問題。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 文本關(guān)鍵詞的語篇功能研究.pdf
- 關(guān)鍵詞分析的模式關(guān)鍵詞選擇,關(guān)鍵詞搜索頻度,關(guān)鍵詞調(diào)配5-v.org
- 瑞拓關(guān)鍵詞整體分析
- 基于詞跨度的網(wǎng)頁關(guān)鍵詞提取方法研究.pdf
- 語義Web數(shù)據(jù)的關(guān)鍵詞查詢方法.pdf
- 基于聚類分析的中文新聞網(wǎng)頁關(guān)鍵詞提取方法研究.pdf
- 基于樹模板的RDF數(shù)據(jù)關(guān)鍵詞查詢方法研究.pdf
- [教育]壓縮語段——提取關(guān)鍵詞
- 基于語料庫的憤怒的葡萄關(guān)鍵詞分析
- 關(guān)鍵詞詞庫統(tǒng)計方法
- 基于主題的關(guān)鍵詞提取方法對比研究
- 關(guān)鍵詞詞庫統(tǒng)計方法
- 基于關(guān)鍵詞匹配的打印數(shù)據(jù)獲取系統(tǒng).pdf
- 加密數(shù)據(jù)庫關(guān)鍵詞快速檢索的方法研究.pdf
- 數(shù)據(jù)庫中關(guān)鍵詞的查詢擴展研究.pdf
- 關(guān)鍵詞 長尾關(guān)鍵詞 拓展技巧
- 基于形式概念分析與關(guān)鍵詞加權(quán)的用戶查詢詞擴展研究.pdf
- 多關(guān)鍵詞提取在憑證摘要分析中的應(yīng)用
- 關(guān)鍵數(shù)據(jù)庫的關(guān)鍵詞查詢研究.pdf
- 基于關(guān)鍵詞的關(guān)系數(shù)據(jù)庫時態(tài)信息檢索方法研究.pdf
評論
0/150
提交評論