版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、語料庫(kù)語言學(xué)以文本數(shù)據(jù)作為研究對(duì)象,通過計(jì)算機(jī)檢索和統(tǒng)計(jì)分析來揭示隱藏在文本中的語言事實(shí)。文本是唯一的數(shù)據(jù)源,研究者通過語料庫(kù)檢索獲取信息,知識(shí)在基于信息統(tǒng)計(jì)的意義上得到解釋。檢索和統(tǒng)計(jì)是語料庫(kù)語言學(xué)研究的重要技術(shù)和手段,且大規(guī)模文本是其研究的必然要求,所以計(jì)算機(jī)和專業(yè)軟件就成了必不可少的工具。而目前語料庫(kù)軟件相對(duì)貧乏,功能單一,且難以擴(kuò)展升級(jí);同時(shí)由于技術(shù)開發(fā)和理論研究的脫節(jié),使得當(dāng)前語料庫(kù)軟件很難滿足實(shí)際研究需求。本文提出一種新的文
2、本處理思路和方法:基于詞坐標(biāo)的文本處理系統(tǒng),文本處理時(shí)進(jìn)行切詞并坐標(biāo)化,生成詞坐標(biāo)對(duì)象,并基于詞坐標(biāo)對(duì)象進(jìn)行檢索統(tǒng)計(jì)分析及開發(fā)高級(jí)功能應(yīng)用等。這在一定程度上解決了目前所遇到的一些困難和問題。概括起來,本文的其創(chuàng)新和貢獻(xiàn)有: 1.提供了一套新的文本處理思路和完整的可行方案,并開放源代碼。目前語料庫(kù)軟件開發(fā)方面的文獻(xiàn)資料和代碼資源非常匱乏,國(guó)內(nèi)幾乎是空白;各軟件發(fā)行者考慮到商業(yè)利益或?qū)W術(shù)保密,拒絕共享其研發(fā)成果。諸此等等,造成了語料
3、庫(kù)軟件開發(fā)進(jìn)展緩慢、重復(fù)開發(fā)、功能有限等局面?;谠~坐標(biāo)的文本處理系統(tǒng)提供了一套完整的操作方案:文本預(yù)處理、切詞、統(tǒng)計(jì)運(yùn)算到輸出保存、檢索定位、索引行顯示等,并對(duì)其操作流程進(jìn)行了詳細(xì)地解釋。本文采用面向?qū)ο缶幊陶Z言JAVA,開放源代碼供大家參考借鑒。 2.優(yōu)化算法,解決部分難題,改進(jìn)前人在軟件開發(fā)中存在的弊端。在本研究中,不管是算法、數(shù)據(jù)運(yùn)算,還是數(shù)據(jù)儲(chǔ)存方面都有了很大程度的優(yōu)化,提高了程序執(zhí)行效率。首先本文的設(shè)計(jì)有三個(gè)轉(zhuǎn)換:面
4、向文本→面向單詞、字符匹配→數(shù)字運(yùn)算、純文本→結(jié)構(gòu)化數(shù)據(jù),這在很多功能開發(fā)上極大地優(yōu)化了算法,簡(jiǎn)化了運(yùn)算。另外語篇信息統(tǒng)計(jì)更加全面準(zhǔn)確,檢索定位更為快捷精確;同時(shí)引入XML數(shù)據(jù)保存格式,加強(qiáng)數(shù)據(jù)描述,解決多重賦碼等問題;吸收倒排索引思想,提高檢索效率;并利用詞坐標(biāo)的思想和數(shù)據(jù)優(yōu)勢(shì),擴(kuò)展高級(jí)功能,在詞共現(xiàn)與詞相關(guān)、詞圖方面做簡(jiǎn)要示例分析。 3.開放性設(shè)計(jì),為語料庫(kù)軟件橫向功能擴(kuò)展和縱向功能深化提供新的突破口。本文獨(dú)特的文本處理視角
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 文本處理技術(shù)及應(yīng)用.pdf
- 小學(xué)英語故事文本處理策略之探索
- 電信運(yùn)營(yíng)企業(yè)知識(shí)管理與文本處理技術(shù)的應(yīng)用.pdf
- 基于短文本處理算法優(yōu)化的文本信息推薦系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于MapReduce的文本處理算法的研究與應(yīng)用.pdf
- awk文本處理總結(jié)(入門,中級(jí),高級(jí))
- 基于嵌入式的手機(jī)泛文本處理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
- 海底電磁采集站數(shù)據(jù)管理軟件設(shè)計(jì)與開發(fā).pdf
- 基于自然語言處理的語音識(shí)別后文本處理.pdf
- 汽車計(jì)量管理系統(tǒng)數(shù)據(jù)庫(kù)開發(fā)及軟件設(shè)計(jì).pdf
- 高效數(shù)據(jù)流和海量文本處理算法研究.pdf
- 基于語料庫(kù)的英文經(jīng)濟(jì)文本的詞塊分析.pdf
- 基于語料庫(kù)的小學(xué)寫作推薦機(jī)制設(shè)計(jì)與開發(fā).pdf
- 基于維基百科的短文本處理方法.pdf
- 基于語料庫(kù)與非基于語料庫(kù)的英語介詞教學(xué)的對(duì)比研究.pdf
- 基于語料庫(kù)的航海英語限定詞研究.pdf
- 面向語音合成的文本處理技術(shù)的改進(jìn).pdf
- 基于文本處理技術(shù)的中文電子郵件分類系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于語料庫(kù)的英語標(biāo)記反義詞研究.pdf
- 基于智能手機(jī)平臺(tái)的語音識(shí)別后文本處理的應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論