版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、隨著大數(shù)據(jù)時代的到來,出現(xiàn)了大量的序列數(shù)據(jù),而當前研究的熱點與難點是從其中挖掘出用戶感興趣以及有價值的信息。然而,目前大多數(shù)的研究都為非負間隙的序列模式匹配,對每個字符的出現(xiàn)順序有著嚴格的要求,限制了模式匹配的靈活性,降低了模式匹配的實用價值。關(guān)鍵詞抽取是文本挖掘的重點問題,關(guān)鍵詞是對一個文檔中信息的概括與濃縮,但是目前的關(guān)鍵詞抽取研究對抽取模式進行了嚴格的限制,不能夠靈活的獲取詞語間的語義關(guān)系,導(dǎo)致不能對文檔進行有效自主的關(guān)鍵詞提取。
2、因此,本文提出了一般間隙的序列模式挖掘算法并在關(guān)鍵抽取中進行應(yīng)用研究,一般間隙的模式匹配研究不僅在理論上具有研究的價值,而且在生物信息學(xué),文本挖掘等領(lǐng)域具有廣泛的應(yīng)用價值。
本文是基于一般間隙與one-off條件的序列模式匹配,序列模式挖掘及其在文本領(lǐng)域中關(guān)鍵詞抽取的應(yīng)用進行研究。內(nèi)容主要關(guān)于三個方面:
(1)同時具有一般間隙與one-off條件約束的序列模式匹配的算法設(shè)計及分析;
(2)在序列模式匹配的基
3、礎(chǔ)上,進行一般間隙與one-off條件下的序列模式挖掘問題研究;
(3)將一般間隙與one-off條件下的序列模式挖掘算法應(yīng)用到文本信息挖掘中,通過挖掘出詞語間的語義關(guān)系,進行關(guān)鍵詞的抽取。
本文主要的工作與創(chuàng)新點如下:
(1)在序列模式匹配研究中,提出了一般間隙與one-off條件的序列模式匹配問題SPMGOO(Sequential Pattern Matching with General gaps a
4、nd One-Offcondition),在具有間隙約束的模式中允許子模式串之間的間隙為負值,同時加入了one-off條件,允許序列串中任意位置的字符最多使用一次的精確的嚴格模式匹配。之后,通過理論證明了SPMGOO問題為NP-Hard問題。并首次使用線性表解決SPMGOO問題,并且在模式匹配的過程中首次提出對模式串的結(jié)構(gòu)以及序列串中各字符頻度進行分析,判斷是否需要轉(zhuǎn)置操作,使模式與序列達到最佳匹配狀態(tài)。
(2)在序列模式匹配
5、研究中,提出了基于一般間隙與one-off條件的最大數(shù)目的序列模式匹配算法MSAING(Maximum Sequential pattern mAtching wIthoNe-off and General gaps condition)。MSAING算法首先采用Reverse策略判斷是否需要轉(zhuǎn)置操作;然后,利用線性表的結(jié)構(gòu)進行模式匹配,具體分為定位階段、Forward階段、Backward階段,使MSAING算法在模式匹配過程中消耗的
6、時間和內(nèi)存大大的減少,同時在Backward階段使用回溯機制,使匹配的成功率大幅度提高;最后,提出了inside_Checking機制判斷模式串是否會產(chǎn)生內(nèi)部重復(fù)現(xiàn)象,以及如果產(chǎn)生內(nèi)部重復(fù)會在模式串的哪個位置產(chǎn)生,從而有效的提高了MSAING算法的運行效率。并首先從理論上證明了MSAING算法比目前已有算法具有更好的完備性,對于不含重復(fù)的模式能夠取得完備解。其次,本文在真實的生物數(shù)據(jù)集以及文本上,與DCNP等多種相關(guān)的改進算法進行了對比
7、實驗,通過實驗結(jié)果驗證了MSAING算法具有較高的準確性,和較低的時空復(fù)雜度,并對實驗結(jié)果及其意義進行了分析。
(3)在序列模式挖掘研究中,提出了一般間隙與one-off條件的序列模式挖掘算法SPING(Sequential Pattern mIning with oNe-off and General gaps condition)。SPING算法在一般間隙的條件下不僅能夠獲取不連續(xù)的序列模式,同時也可以挖掘出前后顛倒的頻繁
8、模式,提高了模式挖掘的靈活性。該算法獲取模式更加完備的解,從而挖掘出更加真實的信息,并通過在生物序列及其對比實驗驗證了該算法的有效性。
(4)在關(guān)鍵詞抽取研究中,提出了關(guān)鍵詞抽取算法KEING(KeyphraseExtraction using sequentIal patterns with oNe-off and General gaps condition)。一般間隙能夠更有效的獲取詞語,詞組之間的語義關(guān)系,因此利用SP
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于序列模式挖掘的關(guān)鍵詞抽取問題研究.pdf
- 一般周期間隙約束的序列模式挖掘.pdf
- 關(guān)鍵詞抽取方法研究及應(yīng)用.pdf
- 層次化關(guān)鍵詞抽取與文本自動分類在BBS中的應(yīng)用.pdf
- 中文關(guān)鍵詞抽取技術(shù)的研究.pdf
- 面向主題的關(guān)鍵詞抽取方法研究.pdf
- 基于詞共現(xiàn)的關(guān)鍵詞抽取算法研究.pdf
- 關(guān)鍵詞的挖掘和分布
- 一種改進的kea 關(guān)鍵詞抽取算法研究
- 科技論文關(guān)鍵詞抽取技術(shù)的研究.pdf
- 多文檔關(guān)鍵詞抽取技術(shù)的研究.pdf
- 基于半監(jiān)督學(xué)習(xí)的關(guān)鍵詞抽取.pdf
- 基于主題模型的關(guān)鍵詞抽取算法研究.pdf
- 基于外在信息的關(guān)鍵詞抽取問題研究.pdf
- 序列模式挖掘高效算法及其在股票時序中的應(yīng)用.pdf
- 序列模式挖掘在Web用戶訪問序列挖掘中的應(yīng)用研究.pdf
- 基于模糊邏輯的中文關(guān)鍵詞抽取研究.pdf
- 中文社交媒體話題關(guān)鍵詞抽取算法.pdf
- 一般間隙和長度約束的嚴格近似模式匹配.pdf
- 關(guān)鍵詞分析的模式關(guān)鍵詞選擇,關(guān)鍵詞搜索頻度,關(guān)鍵詞調(diào)配5-v.org
評論
0/150
提交評論