2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩95頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、近年來,隨著Web技術(shù)的發(fā)展,開發(fā)能夠滿足用戶對不相關(guān)信息的快速訪問服務(wù)成為了一種重要應(yīng)用。問答服務(wù)就是這樣一種服務(wù),其目標(biāo)是面向某個(gè)具體問題提供答案。在過去的十年中,受TREC(文本檢索會議)的自動問答論壇影響,開發(fā)了許多自動問答系統(tǒng)。自動問答技術(shù)涉及到很多NLP(自然語言處理技術(shù)),如信息檢索(IR),信息抽取(IE),自動摘要,會話界面等。目前的自動問答系統(tǒng)可以分為兩類:開放域自動問答系統(tǒng)和受限域自動問答系統(tǒng)。開放域自動問答系統(tǒng)面

2、向幾乎所有問題的解答,主要依靠通用本體和知識庫技術(shù)。同時(shí),在開放域問答系統(tǒng)中問題的類型是不固定的。受限域自動問答系統(tǒng)主要處理特定領(lǐng)域的問題(如生物醫(yī)藥或天氣預(yù)報(bào)),由于自然語言處理中可以經(jīng)常利用領(lǐng)域知識構(gòu)建本體,從而受限域自動問答系統(tǒng)相對簡單。同時(shí),在受限域自動問答系統(tǒng)中所接受的問題類型也是有限的。
  本文的目標(biāo)是設(shè)計(jì)并實(shí)現(xiàn)SieQA自動問答系統(tǒng),該系統(tǒng)為一個(gè)面向東北大學(xué)國際交流學(xué)院的受限域自動問答系統(tǒng)。為此,本文首先研究了自動

3、問答系統(tǒng)的-般處理過程:
  首先,分析自然語言問題,給出關(guān)鍵字以及問題域;
  然后,使用關(guān)鍵字和問題域,對問題進(jìn)行分類;
  接下來,根據(jù)問題分類,縮減相似的候選問題數(shù)量;
  然后,計(jì)算問題與候選問題間的相似度;
  最后,根據(jù)相似度得到問題答案,如果沒有找到問題答案則記錄該問題,并將該問題轉(zhuǎn)給人工解決。
  這樣,該過程中,需要解決以下問題:
  (1)問題分析,通過識別問題中的單詞并標(biāo)

4、注語義,以對問題進(jìn)行分類以理解問題目標(biāo);
  (2)問題選擇,通過相似度計(jì)算,在大量的候選問題中選擇合適的問題及答案,以實(shí)現(xiàn)自動問題解答。
  在問題分析中,其關(guān)鍵是要理解問題目標(biāo)。為了識別問題目標(biāo),需要進(jìn)行形態(tài)句法分析,以識別單詞是動詞、名詞或者形容詞等,并對單詞進(jìn)行標(biāo)注。通過形態(tài)句法分析,將幫助確定問題關(guān)注于哪類事務(wù)。在此基礎(chǔ)上,為了識別問題所關(guān)注的對象,還需要識別問題的語義以確定該問題是哪類問題。問題分類是要將問題歸為

5、幾個(gè)語義類別。這些分類是事先定義的,依賴于問題關(guān)鍵字進(jìn)行判斷,比如when關(guān)注于時(shí)間或者日期,where關(guān)注于地點(diǎn),who關(guān)注于人。利潤,如果問題是“Who was the first Chinese in space?”,該問題將期待一個(gè)人名的答案。事實(shí)上,所有的問答系統(tǒng)都有一個(gè)問題分類模塊。問題分類的準(zhǔn)確性對于自動問答系統(tǒng)的性能是非常重要的。然而,對于一些英語單詞,如which,并沒有過多的帶有其他語義類型信息。這樣,就需要進(jìn)一步分

6、析識別問題關(guān)鍵字。這樣,本文構(gòu)建了一個(gè)問題類型表,它是一個(gè)層次結(jié)構(gòu)。
  問題選擇是要在大量的候選問題中選擇合適的問題及答案。這樣就需要度量兩個(gè)問題語句的相似度。該相似度計(jì)算應(yīng)考慮語法和語義相似兩個(gè)方面。語句間相似性度量步驟如下:
  (1)標(biāo)記化,將句子分為一系列單詞;
  (2)執(zhí)行詞性標(biāo)注,對單詞進(jìn)行名動詞識別,利用Brill標(biāo)記算法進(jìn)行基于規(guī)則的標(biāo)注;
  (3)詞義消歧,有些單詞有多個(gè)語義,利用WSD(

7、Word Sense Disambiguation)來消除歧義;
  (4)詞義相似性度量,根據(jù)wordnet,利用路徑長度,如公式WUP(s1,s2)=2*depth(LCS)/depth(s1)+depth(s2)所示,計(jì)算詞義相似性。其中s1和s2表示源和目的詞,depth表示計(jì)算節(jié)點(diǎn)到根距離的函數(shù)。LCS表示s1和s2間最小相同部分。
  (5)語義相似度矩陣構(gòu)建,語義相似度矩陣R[m,n]中每個(gè)表示X的位置為i的詞

8、與Y的位置為j的詞之間的相似度。
  (6)語句相似度計(jì)算。根據(jù)句子間的語義相似矩陣,利用Dice相關(guān)系數(shù)計(jì)算得到兩個(gè)句子的語義相似度,如公式v=2*|X∩Y|/|X|+|Y|所示。
  這樣,根據(jù)以上描述,兩個(gè)語句X和Y的相似性計(jì)算算法如下:Sum=0;Threshold=0.5;for(int i=0;i<|X|;i++){max=-1;for(intj=0;j<|Y|;j++){if(R[i,j]>max)max=R[

9、i,j];}If(max>=Threshold){Sum+=max;}}Sim=2*Sum/(|X|+|Y|);
  在此基礎(chǔ)上,本文描述了自動問答系統(tǒng)的功能分析。自動問答系統(tǒng)由兩部分構(gòu)成:客戶App和管理端Web應(yīng)用。
  客戶App的功能是要提供一個(gè)界面以使得用戶能夠提問、獲取答案并瀏覽提問歷史記錄??蛻鬉pp可以分為以下功能模塊:
  (1)注冊模塊:主要是提供新用戶的注冊;
  (2)登錄模塊:主要是使得

10、用戶能夠提供用戶名和密碼之后登錄系統(tǒng);
  (3)個(gè)人資料設(shè)置模塊:主要是使得用戶可以修改個(gè)人資料信息;
  (4)提問模塊,在用戶登錄該系統(tǒng)之后,可以提問;
  (5)瀏覽歷史記錄模塊:用戶可以瀏覽歷史提問信息。
  管理端Web應(yīng)用主要是提供管理員編輯問題類別、管理問題以及回答未正確處理問題和用戶提問歷史統(tǒng)計(jì)分析等功能。管理端Web可以分為以下功能模塊:
  (1)登錄模塊:主要是使得用戶能夠提供用戶名

11、和密碼之后登錄系統(tǒng);
  (2)個(gè)人資料設(shè)置模塊:主要是使得用戶可以修改個(gè)人資料信息;
  (3)用戶管理模塊:主要對注冊用戶進(jìn)行權(quán)限管理及用戶信息維護(hù)等;
  (4)問題域管理模塊:主要是使得用戶能夠修改編輯問題域;
  (5)問題管理模塊:主要是使得用戶能夠修改編輯刪除問題;
  (6)未正確處理問題解答模塊:主要是使得用戶能夠?qū)ο到y(tǒng)未正確處理問題提供解答。
  (7)查看統(tǒng)計(jì)信息模塊:主要是使得

12、用戶能夠查看問題回答情況。
  在系統(tǒng)分析的基礎(chǔ)上,本文描述了系統(tǒng)的體系結(jié)構(gòu)設(shè)計(jì)和邏輯結(jié)構(gòu)設(shè)計(jì),并給出了關(guān)鍵功能模塊設(shè)計(jì)和數(shù)據(jù)庫設(shè)計(jì)。其中客戶App包括3層:顯示層、交互層和服務(wù)器層。其中,顯示層是android聊天應(yīng)用,用于以圖形界面方式提供系統(tǒng)登錄、提問、獲取答案以及瀏覽歷史問答記錄等功能。交互層主要負(fù)責(zé)通過socket端口接收和發(fā)送消息。服務(wù)器層為遠(yuǎn)程服務(wù)器,用以與顯示層間發(fā)送接收消息。管理端Web應(yīng)用采用顯示層、Web應(yīng)用

13、層和數(shù)據(jù)層的3層體系結(jié)構(gòu)。其中,顯示層是通過不同的Web界面提供用戶登錄、問題域管理、用戶角色管理和未解答問題角色指派等功能。同時(shí),它也提供系統(tǒng)統(tǒng)計(jì)功能。該層同時(shí)也提供用戶請求的處理、問題自動響應(yīng)以及失敗情況下的通知發(fā)送功能。Web應(yīng)用層由Wicket,spring,hibernate和JPA技術(shù)開發(fā)。數(shù)據(jù)層主要存儲系統(tǒng)中的數(shù)據(jù),如用戶信息、問題信息和角色權(quán)限信息等。為了支持系統(tǒng)功能,通過實(shí)體類分析和數(shù)據(jù)庫表關(guān)系分析,本系統(tǒng)主要構(gòu)建了1

14、4張數(shù)據(jù)庫表,包括:用戶信息表、角色表、用戶角色表、權(quán)限表、角色權(quán)限表、問題域表、問題子域表、問題表、答案表、問題類別表、用戶問題表、用戶答案表、未回答問題表。
  在系統(tǒng)設(shè)計(jì)的基礎(chǔ)上,給出了本文的關(guān)鍵功能模塊實(shí)現(xiàn),詳細(xì)說明了系統(tǒng)開發(fā)環(huán)境,并討論了問題分析、分類以及相似度計(jì)算的實(shí)現(xiàn)原理和代碼。同時(shí),給出了客戶App的提問和登錄模塊的實(shí)現(xiàn)原理及界面,給出了管理端Web應(yīng)用的登錄、查看統(tǒng)計(jì)信息和問題管理模塊的實(shí)現(xiàn)原理及界面。
 

15、 本文開展了一系列的實(shí)驗(yàn)對答案獲取進(jìn)行了測試。實(shí)驗(yàn)結(jié)果驗(yàn)證了其準(zhǔn)確性。同時(shí),對系統(tǒng)中關(guān)鍵功能模塊進(jìn)行了系統(tǒng)測試。測試結(jié)果表明,該系統(tǒng)能夠幫助東北大學(xué)國際交流學(xué)院實(shí)現(xiàn)留學(xué)相關(guān)問題的自動解答。
  最后,本文總結(jié)了論文的主要工作。本文主要設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)自動問答系統(tǒng)。該系統(tǒng)中利用語句分析、分類和相似度計(jì)算技術(shù),從數(shù)據(jù)庫(包括問題和答案的數(shù)據(jù)庫)中獲取答案。論文中給出了受限域自動問答方法的整體結(jié)構(gòu)和處理過程。基于自動問答方法以及國際交流

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論