一種頻率增強(qiáng)的語句語義相似度計算

上傳人：奔*** IP屬地：河北更新時間：2024-07-30 格式：doc 頁數(shù)：5 大小：106.50KB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩4頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、　　一種頻率增強(qiáng)的語句語義相似度計算　　摘要：目前，在基于HowNet進(jìn)行語句語義相似度計算的算法中，沒有考慮語句中的不同詞語對語句之間相似度值的不同貢獻(xiàn)程度，以致計算結(jié)果不理想.為了更好地解決上述缺陷，提出了一種頻率增強(qiáng)語句語義相似度算法.該算法利用HowNet作為詞典庫，在同時考慮義原距離和義原深度的條件下，進(jìn)行詞語相似度計算；在此基礎(chǔ)上算法進(jìn)一步將詞語在語料庫中的頻率函數(shù)

2、作為權(quán)重值，引入至語句的語義相似度計算中，以降低高頻率詞語在語句相似度值中的比重.實(shí)驗(yàn)表明，改進(jìn)的算法在語句相似度計算結(jié)果上與人們的主觀判斷更接近，結(jié)果更合理. 　　關(guān)鍵詞：HowNet；義原樹狀結(jié)構(gòu)；語料庫；語義相似度 　　中圖分類號：TP39 文獻(xiàn)標(biāo)識碼：A 　　文本相似度＼[1＼]是表示兩個或多個文本之間匹

3、配程度的一個度量參數(shù)，相似度越大，說明對比的內(nèi)容相似程度越高，反之越低.文本相似度計算廣泛應(yīng)用于文本挖掘、Web信息搜索和機(jī)器翻譯等，是自然語言處理中的一個重要研究領(lǐng)域＼[2＼].在長文本句子相似度計算中，主要分析相同的句子并且將句子分類＼[1＼]；在圖像修復(fù)中，根據(jù)嵌入圖像的描述文字進(jìn)行修復(fù)可以達(dá)到更高的精度＼[3＼]，在web內(nèi)容進(jìn)行搜索時，計算web頁面中的語句相似度能夠更加有效地推薦搜索結(jié)果＼[4＼].

4、　　當(dāng)前的文本相似度計算包括詞語相似度計算，語句相似度計算等，詞語相似度計算是指詞語之間在語義上的相似度計算，狹義地說，是指從字面上來計算兩個詞語之間的相似度＼[5＼]，其研究方法主要包括利用語義詞典以及詞典中數(shù)據(jù)的樹狀層次結(jié)構(gòu)關(guān)系，來計算詞語之間的語義相似度值；其次是利用統(tǒng)計學(xué)中的概率分布思想，結(jié)合語料庫，通過詞語在語料庫中出現(xiàn)的頻率來反應(yīng)詞語間的相似度.第一類方法的基礎(chǔ)是語義詞典庫，根據(jù)義原或者詞語本身構(gòu)成的樹狀結(jié)

5、構(gòu)，來得到詞語的相似度值，這類方法的一個較明顯的缺點(diǎn)是詞典庫中經(jīng)常存在一些沒有登錄或記錄的詞匯.第二類方法的基礎(chǔ)是語料庫，該方法中假定當(dāng)詞語所在的上下文環(huán)境相似時，詞語之間才是相似的.但是這個方法中的一個缺陷是有時語料庫中的詞語頻率函數(shù)并不滿足某種概率分布＼[6＼]. 　　但是，單純的詞語之間語義相似度計算還不足以滿足日常需要，人們在平常的工作生活中，接觸到的通常是以文本形式出現(xiàn)的信息，因此，詞

6、語語義相似度計算還需要過渡到語句語義相似度計算層面上.在語義相似度計算方法中，主要包括將詞性和詞序結(jié)合的方法＼[7＼]、依存樹法、編輯距離方法和基于HowNet的方法＼[8＼]等，我們從復(fù)雜度、詞語權(quán)重信息、同義詞反義詞、數(shù)據(jù)稀疏、語義信息、語句結(jié)構(gòu)和算法可行度進(jìn)行分析發(fā)現(xiàn)，這些方法并不能完全滿足這些因素. 　　在以往的文本或者長句相似度匹配中，可以通過上下文關(guān)系中推斷出文本的語義，但是在短句中

7、，由于詞匯量的問題，以往的語句相似度計算法在短句中的語義相似度計算中有效性不高＼[9＼]，因而文本中短句中相似度計算，如5～25個詞語組成的不講究語法的短句，已逐漸成為自然語言處理中的一個重要領(lǐng)域. 　　本文將HowNet作為語義詞典庫， HowNet是由董振東先生創(chuàng)立， HowNet的描述對象是漢語詞語和英語詞語所代表的概念，它揭示了概念之間以及概念屬性之間的復(fù)雜關(guān)系，并以此構(gòu)成一個組織龐大

8、、內(nèi)容豐富的知識庫. 　　4結(jié)論 　　本文以HowNet為語義詞典庫，介紹了HowNet中義原相似度計算、概念相似度計算以及詞語相似度計算的細(xì)節(jié)和公式.最終，以此為基礎(chǔ)，研究了改進(jìn)的語句語義相似度計算. 　　在對語句相似度算法改進(jìn)時，將詞語在語料庫中的頻率函數(shù)作為權(quán)重系數(shù)加入

9、到計算公式中.語料庫中詞語出現(xiàn)的頻率越大，對語句整體所起的作用越小，反之則越大，這個規(guī)律與人們?nèi)粘５挠^念也相符合.本文改進(jìn)的算法在一定程度上解決了目前基于HowNet的語句相似度算法中存在的計算結(jié)果不合理現(xiàn)象.最后，通過三種方法的對比實(shí)驗(yàn)證明，改進(jìn)后的語句相似度計算方法更合理. 　　參考文獻(xiàn) 　　[1]ALIGULI

10、YEV R M. A new sentence similarity measure and sentence based extractive technique for automatic text summarization＼[J＼]. Expert Systems with Application ，2009，36 （4）： 7764-7772. 　　＼[2＼]涂承勝，魯明羽，陸玉昌.W

11、eb內(nèi)容挖掘技術(shù)研究＼[J＼].計算機(jī)應(yīng)用研究，2003，20（11）：5-9. 　　TU Chengsheng， LU Mingyu， LU Yucang. Web content mining technology＼[J＼]. Computer Application Research， 2003，20（11）：5-9.（In Chinese）

12、＼[3＼]CHIANG J H，YU H C. Literature extraction of protein functions using sentence pattern mining＼[J＼]. IEEE Transactions on Knowledge and Data Engineering，2005，17（8）：1088-1098. 　　＼[4＼]KO Y， PARK J， S

13、EO J. Improving text categorization using the importance of sentences＼[J＼]. Information Processing and Management，2004，40： 65-79. 　　＼[5＼]LIN Dekang. An information theoretic definition of similarity

14、semantic distance in wordnet ＼[C＼]//Proceedings of the Fifteenth International Conference on Machine Learning1998：296-304. 　　＼[6＼]田久樂，趙蔚.基于同義詞詞林的詞語相似度計算方法＼[J＼].吉林大學(xué)學(xué)報，2010，28（6）：602-608. 　　TIAN Jiul

15、e，ZHAO Wei. Words similarity algorithm based on tongyici cilin in semantic web adaptive learning system＼[J＼]. Journal of Jilin University， 2010，28（6）：602-608.（In Chinese） 　?。躘7＼]車萬翔，劉挺，秦兵，等.基于改進(jìn)編輯距離的

16、中文相似句子檢索＼[J＼].高技術(shù)通訊，2004（7）：15-19. 　　CHE Wangxiang，LIU Ting， QIN Bing. Similar chinese sentence retrieval based on improved editdistance＼[J＼].High Technology Letters，2004（7）：15-19. （In Chinese） </

17、p>　?。躘8＼]劉群，李素建.基于《知網(wǎng)》的詞匯語義相似度計算＼[C＼]//第三語義學(xué)研討會論文集.臺北：臺北中央研究院，2002：149-163. 　　LIU Qun， LI Sujian How netbased lexical semantic similarity calculation＼[C＼]//Third Semantics Workshop Proc

18、eedings. Taipei： Academia Sinica， 2002：149-163.（In Chinese） 　?。躘9＼]AMINUL Islam，DIANA Inkpen. Semantic text similarity using corpusbased word similarity and string similarity＼[R＼]. Ottawa， Canada：Uni

19、versity of Ottawa，2008. 　?。躘10＼]LIAO Zhining， ZUHAIR A. Bandar， James D. O’Shea，Keeley Crockett. Termbased approach for semantic similarity of short texts＼[R＼].Manchester， England：Manchester Metropol

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

一種頻率增強(qiáng)的語句語義相似度計算

文檔簡介

溫馨提示

最新文檔

評論

一種頻率增強(qiáng)的語句語義相似度計算

文檔簡介

溫馨提示

最新文檔

評論

免費(fèi)下載