2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩138頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、自然語(yǔ)言對(duì)象在很多情況下存在著語(yǔ)義上的相關(guān)關(guān)系,這種相關(guān)關(guān)系可以使多種研究問題受益,如自然語(yǔ)言處理、信息檢索、機(jī)器翻譯、自動(dòng)問答,等等。語(yǔ)義相關(guān)計(jì)算是語(yǔ)義相關(guān)關(guān)系的量化手段,而語(yǔ)義相關(guān)關(guān)系的廣泛應(yīng)用對(duì)語(yǔ)義相關(guān)計(jì)算算法在理論上、實(shí)踐上均提出了挑戰(zhàn),例如語(yǔ)言對(duì)象語(yǔ)義的模型化表示、語(yǔ)義相關(guān)計(jì)算模型的設(shè)計(jì)、信息來源與特征質(zhì)量的分析、針對(duì)問題場(chǎng)景的特殊形式語(yǔ)義相關(guān)性、計(jì)算方法的跨語(yǔ)言通用性,等等。
  本文首先明確了“語(yǔ)義相關(guān)”的定義,以統(tǒng)

2、一的數(shù)學(xué)形式給出了語(yǔ)義相關(guān)計(jì)算的表示,并提出了研究中面臨的三個(gè)要點(diǎn):語(yǔ)義連接的選擇、特征映射的設(shè)計(jì),以及對(duì)比映射的設(shè)計(jì)。圍繞這些要點(diǎn),本文針對(duì)詞匯級(jí)的語(yǔ)言對(duì)象,包括詞匯、命名實(shí)體,以及網(wǎng)頁(yè)搜索查詢,基于統(tǒng)計(jì)方法對(duì)語(yǔ)義相關(guān)計(jì)算問題展開研究。本文的研究工作組織為如下四部分。
  針對(duì)詞匯語(yǔ)義相關(guān)度計(jì)算問題,研究異構(gòu)特征線索下相關(guān)度計(jì)算函數(shù)的設(shè)計(jì)問題。使用方式(上下文)上的近似性、語(yǔ)義關(guān)系上的關(guān)聯(lián)性均為詞匯語(yǔ)義相關(guān)度的重要指示。這兩類特

3、征線索的形式迥異,為了充分利用其中的指導(dǎo)信息,本文設(shè)計(jì)了一種語(yǔ)義關(guān)系增強(qiáng)的層次化上下文相似度算法,使用上下文相似度量化詞匯在語(yǔ)義關(guān)系上的關(guān)聯(lián)性,從而將兩類特征線索統(tǒng)一起來。實(shí)驗(yàn)證明語(yǔ)義關(guān)系與上下文相似度的結(jié)合可以有效提高語(yǔ)義相關(guān)度計(jì)算結(jié)果與人工評(píng)價(jià)的一致性,而且本文提出的特征線索融合方法優(yōu)于簡(jiǎn)單地疊加異構(gòu)特征的方法。
  圍繞普通文本上的相關(guān)命名實(shí)體挖掘問題,研究如何在特定應(yīng)用場(chǎng)景下有效表示語(yǔ)言對(duì)象的語(yǔ)義相關(guān)關(guān)系。本文提出,命名實(shí)

4、體之間的語(yǔ)義相關(guān)關(guān)系無法脫離其對(duì)應(yīng)的客觀世界對(duì)象之間的關(guān)聯(lián)關(guān)系。本文通過考察命名實(shí)體的篇章級(jí)共現(xiàn)現(xiàn)象,量化了命名實(shí)體在事件中的語(yǔ)義互動(dòng)強(qiáng)度。輔以上下文的相似度,以及行文上的近鄰度等特征,基于篇章級(jí)共現(xiàn)的相關(guān)命名實(shí)體挖掘結(jié)果在質(zhì)量上好于基于關(guān)系抽取的挖掘結(jié)果。
  在知識(shí)庫(kù)支持的命名實(shí)體相關(guān)度計(jì)算問題中,研究在語(yǔ)言對(duì)象本身的統(tǒng)計(jì)特性較弱時(shí),如何對(duì)其特征項(xiàng)賦權(quán)的問題。本文首次提出了基于實(shí)體-屬性-屬性值記錄的命名實(shí)體相關(guān)度計(jì)算方法。實(shí)

5、體-屬性-屬性值記錄由于受其內(nèi)在設(shè)計(jì)原則的影響,一些在常規(guī)文本中有效的統(tǒng)計(jì)方法無法直接應(yīng)用。為此,本文提出通過查詢?nèi)罩局械挠脩襞d趣信息對(duì)命名實(shí)體的語(yǔ)義特征項(xiàng)進(jìn)行賦權(quán)的方法。與基于知識(shí)庫(kù)內(nèi)部數(shù)據(jù)的統(tǒng)計(jì)方法相比,本文方法在相關(guān)實(shí)體推薦應(yīng)用上達(dá)到了更好的準(zhǔn)確率。此外,本文還討論了賦權(quán)策略在不同規(guī)模、質(zhì)量、領(lǐng)域的知識(shí)庫(kù)條目上的有效性,以及相關(guān)度計(jì)算函數(shù)應(yīng)如何利用這種賦權(quán)結(jié)果。
  以查詢語(yǔ)義相關(guān)性判斷問題為代表,研究語(yǔ)義相關(guān)計(jì)算策略的分析

6、與改進(jìn)問題,包括特征的有效性問題和模型的適應(yīng)性問題。查詢語(yǔ)義相關(guān)性判斷是對(duì)兩條網(wǎng)頁(yè)搜索查詢是否針對(duì)同一信息需求的判斷。不同用戶的搜索習(xí)慣有較大差異,這使得判斷模型所采用的特征在不同用戶上的有效性不同,并進(jìn)一步需要判斷模型體現(xiàn)出對(duì)用戶個(gè)體差異的適應(yīng)性。本文首先根據(jù)常見的兩類相關(guān)性線索——時(shí)間近鄰性、內(nèi)容相似性——設(shè)計(jì)了多種分類特征,并由此建立了有效的判斷模型。然后,本文通過獨(dú)立于具體模型的ROC曲線分析考察了諸特征的內(nèi)在判別能力,并根據(jù)分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論