2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、畢業(yè)設(shè)計(jì)開題報(bào)告畢業(yè)設(shè)計(jì)開題報(bào)告計(jì)算機(jī)科學(xué)與技術(shù)計(jì)算機(jī)科學(xué)與技術(shù)基于基于SVMSVM的漢語(yǔ)問句分類研究的漢語(yǔ)問句分類研究一、選題的背景與意義如今已是網(wǎng)絡(luò)信息爆炸的時(shí)代,信息浩如煙海,人們對(duì)于網(wǎng)絡(luò)的普遍需求是怎樣快速尋找到自己想要的信息。盡管目前有比較知名的搜索引擎如百度、谷歌、雅虎等,但是都存在很多不足,而對(duì)于更加準(zhǔn)確、高效、人性的智能檢索系統(tǒng)的研發(fā)成為人們迫切的愿望。自動(dòng)問答(QuestionAnswering,QA)系統(tǒng),是指系統(tǒng)接

2、受用戶以自然語(yǔ)言形式描述的提問,隨后能夠從大量的數(shù)據(jù)中查找出并且為用戶返回一個(gè)簡(jiǎn)潔、準(zhǔn)確的答案。問答系統(tǒng)是目前自然語(yǔ)言處理領(lǐng)域一個(gè)非常熱門的問題,它被認(rèn)為是新一代智能檢索系統(tǒng)。不同的問答系統(tǒng)具有不同的結(jié)構(gòu),但大部分系統(tǒng)有著相同的框架,包括問句理解、信息檢索和答案抽取三部分。問題理解雖然是問答系統(tǒng)的一個(gè)子過程,但卻是第一個(gè)重要的模塊,這直接影響到了信息檢索和答案選取的正確率。因此,找出能夠良好識(shí)別漢語(yǔ)問句的方法,將使中文自動(dòng)問答系統(tǒng)朝著應(yīng)

3、用于多領(lǐng)域的普遍方向發(fā)展。特征選取是問句分類中最關(guān)鍵的一部分,這與文本分類有很多相似的地方,但是除了提取問句中的詞、詞性、語(yǔ)塊句法特征外,還需提取問句中一些隱含的語(yǔ)義特征。目前流行的方法有識(shí)別同義詞、關(guān)聯(lián)詞,計(jì)算語(yǔ)義相似度和語(yǔ)義相關(guān)度,語(yǔ)義塊和命名實(shí)體識(shí)別。對(duì)于問句分類方法的研究,目前主要集中在兩個(gè)方面,一是基于規(guī)則的方法,通過專家提取各種問句類型的疑問詞與其他相關(guān)詞組合的特征規(guī)則,通過規(guī)則來(lái)判定問句所屬類型。另一種是通過統(tǒng)計(jì)的方法實(shí)現(xiàn)

4、問句的分類,通過對(duì)真實(shí)的經(jīng)過標(biāo)注的問句語(yǔ)料進(jìn)行統(tǒng)計(jì)學(xué)習(xí),提取能表達(dá)各種問句類型的特征規(guī)則,建立學(xué)習(xí)模型,實(shí)現(xiàn)各種問句的類型識(shí)別。二、研究的基本內(nèi)容與擬解決的主要問題:漢語(yǔ)問句分類目標(biāo)是根據(jù)實(shí)際問句特征將其歸為一定集合的漢語(yǔ)問句類型中的一種,本文的分類標(biāo)準(zhǔn)參考文獻(xiàn)[9]中的問句分類體系,將漢語(yǔ)問句分成50多個(gè)類型,兩〈label〉〈index1〉:〈value1〉〈index2〉:〈value2〉〈indexn〉:〈valuen〉其中l(wèi)a

5、bel為問句相應(yīng)類別的編號(hào)〈index〉是問句中特征定義的編號(hào)〈value〉為其對(duì)應(yīng)的特征項(xiàng)的特征值.對(duì)于每一個(gè)問句要求提取出一個(gè)上面表達(dá)形式的特征向量用于訓(xùn)練和測(cè)試.問句分類器選取了語(yǔ)義相似度的特征因此對(duì)該特征進(jìn)行編碼即確定〈index〉項(xiàng)序號(hào)和具體特征之間的對(duì)應(yīng)關(guān)系.特征編碼要借助于問句類別表、FAQ標(biāo)準(zhǔn)問句庫(kù)、中科院詞表。特征編碼確定后對(duì)于每一個(gè)問句只需確定這個(gè)特征編號(hào)(Index)在問句中對(duì)應(yīng)的特征值(Value)對(duì)選取特征只取

6、兩個(gè)值(0或1).。對(duì)問句與標(biāo)準(zhǔn)問句庫(kù)進(jìn)行相似度計(jì)算后判斷該問句是否包含相關(guān)特征項(xiàng).若問句中出現(xiàn)該對(duì)應(yīng)編碼的特征則對(duì)應(yīng)的特征值為1否則為0。然后對(duì)每一個(gè)訓(xùn)練和測(cè)試問句構(gòu)建出一個(gè)表達(dá)問句的SVM特征向量。按照上述方式構(gòu)造分類器的問句特征維數(shù)很大,SVM能夠處理高維特征,但是訓(xùn)練時(shí)間較長(zhǎng)。四、研究的總體安排與進(jìn)度:20102011第一學(xué)年:12月20日1月9日:查閱相關(guān)書籍資料,對(duì)于中文自動(dòng)問答系統(tǒng)作整體上的了解。1月10日2月16日:學(xué)習(xí)

7、基于詞和詞性的句法特征選擇方法和SVM算法的分類方法。20102011第二學(xué)年:2月17日3月20日:應(yīng)用這兩種方法構(gòu)造分類器并實(shí)現(xiàn)對(duì)給定訓(xùn)練集和測(cè)試集的分類。3月21日4月10日:對(duì)分類器進(jìn)行測(cè)試、修改,使分類效果盡可能的理想。4月11日5月1日:對(duì)最后的結(jié)果進(jìn)行誤差分析、總結(jié)并撰寫畢業(yè)論文。五、主要參考文獻(xiàn):[1]余正濤樊孝忠郭劍毅.基于支持向量機(jī)的漢語(yǔ)問句分類.華南理工大學(xué)學(xué)報(bào)2005.9[2]呂德新.中文自動(dòng)問答系統(tǒng)中問題理解技

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論