基于詞坐標(biāo)的文本處理、數(shù)據(jù)管理及應(yīng)用設(shè)計(jì)——英語語料庫(kù)軟件設(shè)計(jì)與開發(fā).pdf_第1頁
已閱讀1頁,還剩66頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語料庫(kù)語言學(xué)以文本數(shù)據(jù)作為研究對(duì)象,通過計(jì)算機(jī)檢索和統(tǒng)計(jì)分析來揭示隱藏在文本中的語言事實(shí)。文本是唯一的數(shù)據(jù)源,研究者通過語料庫(kù)檢索獲取信息,知識(shí)在基于信息統(tǒng)計(jì)的意義上得到解釋。檢索和統(tǒng)計(jì)是語料庫(kù)語言學(xué)研究的重要技術(shù)和手段,且大規(guī)模文本是其研究的必然要求,所以計(jì)算機(jī)和專業(yè)軟件就成了必不可少的工具。而目前語料庫(kù)軟件相對(duì)貧乏,功能單一,且難以擴(kuò)展升級(jí);同時(shí)由于技術(shù)開發(fā)和理論研究的脫節(jié),使得當(dāng)前語料庫(kù)軟件很難滿足實(shí)際研究需求。本文提出一種新的文

2、本處理思路和方法:基于詞坐標(biāo)的文本處理系統(tǒng),文本處理時(shí)進(jìn)行切詞并坐標(biāo)化,生成詞坐標(biāo)對(duì)象,并基于詞坐標(biāo)對(duì)象進(jìn)行檢索統(tǒng)計(jì)分析及開發(fā)高級(jí)功能應(yīng)用等。這在一定程度上解決了目前所遇到的一些困難和問題。概括起來,本文的其創(chuàng)新和貢獻(xiàn)有: 1.提供了一套新的文本處理思路和完整的可行方案,并開放源代碼。目前語料庫(kù)軟件開發(fā)方面的文獻(xiàn)資料和代碼資源非常匱乏,國(guó)內(nèi)幾乎是空白;各軟件發(fā)行者考慮到商業(yè)利益或?qū)W術(shù)保密,拒絕共享其研發(fā)成果。諸此等等,造成了語料

3、庫(kù)軟件開發(fā)進(jìn)展緩慢、重復(fù)開發(fā)、功能有限等局面?;谠~坐標(biāo)的文本處理系統(tǒng)提供了一套完整的操作方案:文本預(yù)處理、切詞、統(tǒng)計(jì)運(yùn)算到輸出保存、檢索定位、索引行顯示等,并對(duì)其操作流程進(jìn)行了詳細(xì)地解釋。本文采用面向?qū)ο缶幊陶Z言JAVA,開放源代碼供大家參考借鑒。 2.優(yōu)化算法,解決部分難題,改進(jìn)前人在軟件開發(fā)中存在的弊端。在本研究中,不管是算法、數(shù)據(jù)運(yùn)算,還是數(shù)據(jù)儲(chǔ)存方面都有了很大程度的優(yōu)化,提高了程序執(zhí)行效率。首先本文的設(shè)計(jì)有三個(gè)轉(zhuǎn)換:面

4、向文本→面向單詞、字符匹配→數(shù)字運(yùn)算、純文本→結(jié)構(gòu)化數(shù)據(jù),這在很多功能開發(fā)上極大地優(yōu)化了算法,簡(jiǎn)化了運(yùn)算。另外語篇信息統(tǒng)計(jì)更加全面準(zhǔn)確,檢索定位更為快捷精確;同時(shí)引入XML數(shù)據(jù)保存格式,加強(qiáng)數(shù)據(jù)描述,解決多重賦碼等問題;吸收倒排索引思想,提高檢索效率;并利用詞坐標(biāo)的思想和數(shù)據(jù)優(yōu)勢(shì),擴(kuò)展高級(jí)功能,在詞共現(xiàn)與詞相關(guān)、詞圖方面做簡(jiǎn)要示例分析。 3.開放性設(shè)計(jì),為語料庫(kù)軟件橫向功能擴(kuò)展和縱向功能深化提供新的突破口。本文獨(dú)特的文本處理視角

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論