2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩127頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著科學(xué)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)的廣泛普及,信息量極大豐富,知識的增長與更新速度日益加快,如何快速獲取感興趣的信息成為人們關(guān)注的話題。信息抽取的任務(wù)是直接從非結(jié)構(gòu)化/半結(jié)構(gòu)化的自然語言文本中抽取關(guān)鍵信息,以一種結(jié)構(gòu)化的形式呈現(xiàn),方便人們快速獲取關(guān)鍵信息。作為從文檔中直接獲取重要信息的手段,信息抽取已經(jīng)逐漸成為多種自然語言處理任務(wù)的支撐技術(shù)。其中,領(lǐng)域資源獲取、術(shù)語抽取、共指消解以及關(guān)系抽取等關(guān)鍵技術(shù)是信息抽取的主要任務(wù)和研究熱點(diǎn)。

2、  傳統(tǒng)的信息抽取方法依賴于大量人工選擇和標(biāo)注的領(lǐng)域語料,根據(jù)不同的術(shù)語種類和預(yù)先定義的關(guān)系類型確定抽取對象,針對不同的抽取對象標(biāo)注訓(xùn)練語料,選擇不同的機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練以實(shí)現(xiàn)特定領(lǐng)域術(shù)語和特定類型關(guān)系的抽取,從而完成對目標(biāo)領(lǐng)域關(guān)鍵信息的抽取。然而該過程不可避免的需要大量的人工參與,難以滿足異質(zhì)的海量信息處理和快速的信息更新的需求。本文旨在探索領(lǐng)域自適應(yīng)的弱指導(dǎo)信息抽取的途徑,提高信息抽取的自動化程度和領(lǐng)域適應(yīng)性。對領(lǐng)域資源獲取、術(shù)語

3、抽取、共指消解、關(guān)系抽取等關(guān)鍵技術(shù)進(jìn)行研究:
  1.基于內(nèi)容與鏈接分析的領(lǐng)域資源獲取。領(lǐng)域資源獲取是信息抽取的首要步驟,互聯(lián)網(wǎng)上具有足夠豐富的信息,如何獲取領(lǐng)域相關(guān)性強(qiáng)、可信度高的資源作為領(lǐng)域語料是具有自適應(yīng)性的信息抽取技術(shù)的首要任務(wù)。本文通過分析鏈接結(jié)構(gòu)和文本內(nèi)容,提出基于內(nèi)容的方法過濾垃圾信息,采用鏈接分析的方法發(fā)現(xiàn)重要的信息源,從而實(shí)現(xiàn)高質(zhì)量領(lǐng)域資源的獲取。
  2.基于指示詞的術(shù)語抽取。術(shù)語是對領(lǐng)域知識進(jìn)行描述的最

4、基本單元,傳統(tǒng)的術(shù)語抽取方法通過歸納術(shù)語本身的不同特點(diǎn)并根據(jù)其在不同領(lǐng)域語料中出現(xiàn)頻度的差異進(jìn)行術(shù)語抽取,本研究著眼于術(shù)語前后具有領(lǐng)域獨(dú)立性且易于識別的指示性詞語,通過識別穩(wěn)定的指示詞進(jìn)行不同領(lǐng)域的術(shù)語候選抽取,并采用鏈接分析的方法計算術(shù)語與句子間的相關(guān)程度進(jìn)行術(shù)語驗(yàn)證。與現(xiàn)有方法依賴于領(lǐng)域知識不同,本研究著眼于無需領(lǐng)域知識的弱指導(dǎo)術(shù)語抽取方法,為實(shí)現(xiàn)領(lǐng)域自適應(yīng)的信息抽取方法奠定基礎(chǔ)。
  3.基于內(nèi)外部相似度計算的共指消解。來自

5、不同信息源的信息在描述同一事物時可能采用不同表達(dá)方法,共指消解是將不同的表達(dá)方式映射到特定實(shí)體的過程,高性能的共指消解是正確抽取關(guān)鍵信息的基礎(chǔ)。本文利用內(nèi)部詞形和讀音信息以及外部上下文信息,通過相似度計算進(jìn)行無指導(dǎo)的跨文檔共指消解,從而實(shí)現(xiàn)實(shí)體抽取。該方法不需要任何訓(xùn)練過程和任何先驗(yàn)領(lǐng)域知識,能夠方便的應(yīng)用于不同領(lǐng)域。本研究中,共指消解的目的是實(shí)現(xiàn)領(lǐng)域術(shù)語到實(shí)體的映射,因此術(shù)語中的名詞和名詞短語作為輸入。對給定的術(shù)語集合,通過計算每對術(shù)

6、語間的讀音相似度和上下文相似度,綜合考慮每對術(shù)語兩方面的相似程度信息確定它們是否指示同一實(shí)體。
  4.自底向上的關(guān)系類型及實(shí)例抽取。術(shù)語抽取獲取了最基本的領(lǐng)域信息,共指消解找到了術(shù)語和概念、實(shí)例間的映射關(guān)系,通過關(guān)系抽取獲取概念以及實(shí)例間的關(guān)系則完成了對關(guān)鍵信息的挖掘和表述。關(guān)系抽取的任務(wù)在于識別實(shí)體間不同的語義關(guān)系從而準(zhǔn)確地描述關(guān)鍵信息,因此關(guān)系抽取是本研究的重要組成部分。傳統(tǒng)的關(guān)系抽取方法需要人為設(shè)計抽取模板和關(guān)系類型等,然

7、后在此基礎(chǔ)上抽取特定類型關(guān)系,使得信息抽取的自動化程度受到制約。關(guān)系類型的自動獲取將大大提高信息抽取的自動化程度和應(yīng)用范圍,是本文的重要研究內(nèi)容。本文將在不依賴于預(yù)先定義關(guān)系類型的情況下,采用自底向上的規(guī)約和聚類的方法自動獲取關(guān)系類型并抽取關(guān)系實(shí)例。
  5.信息抽取技術(shù)與相關(guān)應(yīng)用的結(jié)合。信息抽取可廣泛地應(yīng)用于各種信息智能處理任務(wù)中,本課題選取本體自動構(gòu)建作為應(yīng)用任務(wù),本體構(gòu)建的目的是更好地組織和表示知識,為信息檢索、知識工程等智

8、能處理任務(wù)提供指導(dǎo)。現(xiàn)有研究中大多采用人工構(gòu)建的普通領(lǐng)域的本體作為相關(guān)任務(wù)的先驗(yàn)知識。本研究將信息抽取與本體自動構(gòu)建任務(wù)緊密結(jié)合,通過弱指導(dǎo)或無指導(dǎo)的信息抽取方法自適應(yīng)的構(gòu)建領(lǐng)域本體,作為領(lǐng)域知識服務(wù)于其它自然語言處理任務(wù)中,既是對信息抽取方法應(yīng)用于具體任務(wù)的探索,同時也是間接評價信息抽取方法的有效途徑。
  綜上所述,本文主要貢獻(xiàn)在于探索在領(lǐng)域資源有限的情況下采用弱指導(dǎo)的方法有效進(jìn)行信息抽取的途徑,提高信息抽取的性能并降低對領(lǐng)域

9、資源的依賴程度,使得方法具有良好的領(lǐng)域自適應(yīng)性。采用弱指導(dǎo)或無指導(dǎo)的方法從Web上獲取領(lǐng)域語料,從待處理語料中直接挖掘特征信息,避免對大規(guī)模標(biāo)注語料的依賴,解決人工標(biāo)注的領(lǐng)域資源匱乏的問題。通過消解和規(guī)約的方法自動獲取實(shí)體和關(guān)系類型,使得該方法能廣泛的應(yīng)用于不同領(lǐng)域且具有良好的領(lǐng)域自適應(yīng)性。將信息抽取與本體自動構(gòu)建應(yīng)用任務(wù)有機(jī)結(jié)合,通過相關(guān)任務(wù)進(jìn)一步檢驗(yàn)信息抽取的性能。通過以上方法和途徑,實(shí)現(xiàn)領(lǐng)域自適應(yīng)的信息抽取,解決傳統(tǒng)技術(shù)所面臨的自

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論