-
簡介:現(xiàn)今,網(wǎng)絡(luò)數(shù)據(jù)不斷激增,這其中大多數(shù)數(shù)據(jù)是半結(jié)構(gòu)化的,半結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)類似于圖或樹,通常稱為有向標(biāo)記圖。怎樣才能在這些海量的半結(jié)構(gòu)化數(shù)據(jù)中找到我們需要的數(shù)據(jù)甚至如何從中挖掘出一些我們不曾了解的隱藏信息成為數(shù)據(jù)挖掘的一個新的研究方向。半結(jié)構(gòu)化數(shù)據(jù)有很多種表現(xiàn)形式,XML文檔是其中很重要的一種。因此在這個研究方向中,如何能量化兩個XML文檔的相似性是一個關(guān)鍵,特別是兩個XML文檔的結(jié)構(gòu)和語義相似性。XML不僅可以描述結(jié)構(gòu)化數(shù)據(jù),還具有描述半結(jié)構(gòu)化數(shù)據(jù)的能力。目前,它是處理半結(jié)構(gòu)化文檔的最有力的工具。XML文檔的相似性計算在XML數(shù)據(jù)的近似搜索和文檔分類方面有非常重要的作用。一些XML相似性計算方法已經(jīng)被前人提出,例如編輯距離等,然而,很少有方法能夠簡潔的描繪出XML文檔的結(jié)構(gòu)及語義信息,進(jìn)而有效的計算XML文檔間的相似性。本文提出一種新的基于擴(kuò)展鄰接矩陣的XML文檔結(jié)構(gòu)及語義相似性測度方法。首先,本文介紹了數(shù)據(jù)挖掘概念及文檔相似性計算產(chǎn)生的背景與意義、XML文檔概念與特點(diǎn)以及傳統(tǒng)的XML文檔相似性計算方法等。其次通過深度搜索和區(qū)間編碼技術(shù)對文檔結(jié)構(gòu)信息進(jìn)行編碼,參考鄰接矩陣的概念提出本文相似性計算方法的核心擴(kuò)展鄰接矩陣,不同于普通的鄰接矩陣,在擴(kuò)展鄰接矩陣中,結(jié)構(gòu)信息不僅僅是指鄰接的層,還包含了祖先子孫之間的關(guān)系。為了計算兩個文檔間的相似性,本文提出的方法首先會將兩篇XML文檔的結(jié)構(gòu)和語義信息存儲在兩個擴(kuò)展鄰接矩陣M1,M2中,然后通過COSM1,M2計算兩篇XML文檔的相似性。最后介紹本文提出的相似性計算方法是如何在程序中實現(xiàn)的,并設(shè)計一系列實驗來驗證該方法與其他相似性計算方法相比較效果如何。通過大量實驗證明,該方法具有較高的有效性和準(zhǔn)確性。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 66
大?。?5.39(MB)
子文件數(shù):
-
簡介:隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展信息大量膨脹和聚集互聯(lián)網(wǎng)已經(jīng)形成了一個由數(shù)據(jù)構(gòu)成的巨大數(shù)據(jù)倉庫XMLEXTENSIBLEMARKUPLANGUAGE作為一種常用的數(shù)據(jù)交換和傳輸標(biāo)準(zhǔn)蘊(yùn)含了豐富的信息具有通用的數(shù)據(jù)表示能力能表示結(jié)構(gòu)化、半結(jié)構(gòu)化及元結(jié)構(gòu)化的數(shù)據(jù)。因此對XML文檔的挖掘已經(jīng)成為數(shù)據(jù)挖掘一個新的研究熱點(diǎn)。其中對XML文檔分類的研究越來越廣泛。根據(jù)XMI文檔的性質(zhì)分類時XML文檔結(jié)構(gòu)有許多模型有基于樹的、基于圖的和基于路徑的等等其中XML文檔的結(jié)構(gòu)相似性度量是XML結(jié)構(gòu)分析的核心問題。將XML文檔視為一棵標(biāo)記樹時已有的XML文檔結(jié)構(gòu)相似性度量主要包括距離編輯法、路徑匹配法和時序分析法等。除結(jié)構(gòu)以外XML文檔的內(nèi)容對XML文檔分類的影響也很重要所以從結(jié)構(gòu)和內(nèi)容兩方面研究XML文檔分類方法具有重要的理論意義和廣泛的實用價值。本文基于結(jié)構(gòu)和內(nèi)容兩個方面對XML文檔分類模型和算法進(jìn)行了深入研究。首先針對目前XML文檔基于結(jié)構(gòu)和內(nèi)容的編輯距離分類算法的不足本文在計算相似性度量時提出了一種新的改進(jìn)方法CSXMLSIM方法使得當(dāng)XML文檔結(jié)構(gòu)相似而內(nèi)容差異大時分類有較高的準(zhǔn)確率。實驗結(jié)果表明當(dāng)XML文檔結(jié)構(gòu)相似內(nèi)容差異大時CSXMLSIM方法在提高分類準(zhǔn)確率方面有了明顯改善。其次針對傳統(tǒng)KNN算法的不足在CSXMLSIM算法作為相似度計算的基礎(chǔ)上本文提出了KNN的改進(jìn)算法DBKNN算法。DBKNN算法是基于聚類和密度的KNN改進(jìn)算法DBKNN算法根據(jù)訓(xùn)練樣本的密度采用聚類的方法除去訓(xùn)練集中一定數(shù)量的噪聲樣本使樣本在類別內(nèi)分布地更加均勻在提高文本分類準(zhǔn)確率的同時減少了樣本間相似度的計算量克服了KNN分類過程中搜索空間巨大的問題。最后通過實驗驗證了DBKNN算法的有效性和高效性。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 76
大小: 2.77(MB)
子文件數(shù):
-
簡介:生物醫(yī)學(xué)研究是二十一世紀(jì)最受關(guān)注的研究領(lǐng)域之一,尤其隨著生物醫(yī)學(xué)研究在分子層面的展開,人類基因組計劃的實施完成,產(chǎn)生了海量的生物醫(yī)學(xué)數(shù)據(jù),并形成了數(shù)以百計的生物醫(yī)學(xué)數(shù)據(jù)庫。這些醫(yī)學(xué)數(shù)據(jù)后面隱藏著大量的生物醫(yī)學(xué)知識,對研究人員和醫(yī)療工作者來說,如何方便、快捷、準(zhǔn)確的查詢與檢索這些知識,并從這些繁雜的數(shù)據(jù)中找到有用的信息對他們的工作有著至關(guān)重要的作用。本文從當(dāng)前醫(yī)學(xué)研究人員和醫(yī)療工作者面臨的實際問題出發(fā),將多文檔自動文摘技術(shù)應(yīng)用到生物醫(yī)學(xué)領(lǐng)域,重點(diǎn)研究了生物醫(yī)學(xué)多文檔自動文摘系統(tǒng)的設(shè)計與實現(xiàn)。首先,根據(jù)PUBMED上查詢結(jié)果的特點(diǎn),利用爬蟲程序?qū)⒂脩粼赑UBMED上的查詢結(jié)果保存到本機(jī)計算機(jī)中,并針對原始原料的特點(diǎn),提出語料庫建立的方法,建立語料庫。其次,在建立語料庫的基礎(chǔ)上,為了規(guī)范數(shù)據(jù)格式,對語料庫進(jìn)行預(yù)處理,重點(diǎn)研究對語料的詞性標(biāo)注和命名實體識別,并最終選取標(biāo)記效果更好、速度更快的雙向推理算法,最簡優(yōu)先策略,確保了對語料詞的準(zhǔn)確標(biāo)記的同時,克服了傳統(tǒng)算法的缺陷。最后,對規(guī)范化的數(shù)據(jù)進(jìn)行主題識別,主題識別是本文的關(guān)鍵,本文在根據(jù)醫(yī)學(xué)文獻(xiàn)的數(shù)據(jù)量大的特點(diǎn),采用KMEANS聚類算法進(jìn)行主題聚類的同時,對傳統(tǒng)的算法進(jìn)行改進(jìn),使其在聚類的同時可以動態(tài)的增加類別,克服了傳統(tǒng)KMEANS聚類算法初始聚類數(shù)固定,難發(fā)現(xiàn)潛在主題的缺點(diǎn)。并首次提出交替增強(qiáng)策略,將其應(yīng)用于文摘句的抽取,最終對抽取的文摘句排序,生成文摘,并對生產(chǎn)文摘采用兩種內(nèi)部評測方法評測,取得了很好的效果。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 68
大?。?1.05(MB)
子文件數(shù):
-
簡介:該論文以中國近代城市規(guī)劃專家董修甲的論著為中心,將董修甲的城市規(guī)劃思想及其學(xué)術(shù)貢獻(xiàn)作為研究課題。近年來中國近代城市規(guī)劃史的研究比較注重其歷史人物的研究,但在研究方法上,對人物史的相關(guān)論著研究相對較少。董修甲作為中國近代城市規(guī)劃的靈魂人物之一,對中國近代城市規(guī)劃史有著舉足輕重的影響。該文主要從董修甲的生平、規(guī)劃論著、理論實踐和社會影響等幾個方面,來論述其對中國近代城市規(guī)劃所作出的貢獻(xiàn)。該論文全面描繪了董修甲參與近代城市規(guī)劃建設(shè)的過程。董修甲1911年進(jìn)入清華學(xué)校,1918年赴美國留學(xué),1921年回國,先后從事大學(xué)教育、政府官員和建設(shè)部門負(fù)責(zé)人,直至1945年的時間里,經(jīng)歷了城市規(guī)劃思想的萌芽期成長期形成期轉(zhuǎn)化期定型期。董修甲求學(xué)時期分為國內(nèi)與國外兩個階段,國內(nèi)求學(xué)是董修甲的城市規(guī)劃主體思想方向的形成時期,國外留學(xué)是他城市規(guī)劃思想形成的主導(dǎo)時期。教學(xué)與行政時期是董修甲城市規(guī)劃思想的形成、完善并最終定型的階段。董修甲以寫作的形式作為傳播其思想的重要渠道。論著出現(xiàn)的初衷是為國為民,無形中卻將其思想的轉(zhuǎn)變與近代城市的轉(zhuǎn)變過程記錄下來,成為了探究中國近代社會的一把鑰匙。目前收集到董修甲撰寫論著128篇,從其中44篇城市規(guī)劃相關(guān)的書籍與文章分析中,論述董修甲將西方市政學(xué)與中國近代城市建設(shè)結(jié)合起來,在中國城市轉(zhuǎn)型過程中,起到了引進(jìn)西方城市管理體制與建設(shè)理論方面的作用,對中國城市照搬與擇取西式理論表現(xiàn)出的批判和贊許,及其在漢口、鎮(zhèn)江等地規(guī)劃中的實踐成果,進(jìn)而形成了自己的理論體系。董修甲在近代城市建設(shè)的新舊交替的發(fā)展過程中,也提出了舊城改造的規(guī)劃思想和新城市建設(shè)的規(guī)劃理念。董修甲作為中國近代城市規(guī)劃的先進(jìn)人物之一,扮演領(lǐng)導(dǎo)者和建設(shè)者的雙重身份,主持及參與漢口、吳淞等多個大城市轉(zhuǎn)型和市政建設(shè)。其論著對中國近代化城市建設(shè)發(fā)揮過較大作用,并對城市規(guī)劃產(chǎn)生積極影響。同時指出,董修甲的城市規(guī)劃思想對今天的城市規(guī)劃也有重要參考價值。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 75
大?。?14.75(MB)
子文件數(shù):
-
簡介:XML是可擴(kuò)展標(biāo)記語言的簡稱,它為WEB上的結(jié)構(gòu)化文檔和數(shù)據(jù)提供了通用的格式。隨著INTER的發(fā)展尤其是WEB技術(shù)的廣泛應(yīng)用,越來越多的應(yīng)用采用了XML技術(shù)作為信息表示和數(shù)據(jù)交換的標(biāo)準(zhǔn),這使得通過數(shù)據(jù)庫技術(shù)對XML數(shù)據(jù)進(jìn)行管理變得越來越重要。在關(guān)于XML的數(shù)據(jù)管理技術(shù)中,數(shù)據(jù)驗證是比較重要、且使用比較頻繁的組成部分,在維護(hù)數(shù)據(jù)安全和有效性方面扮演著十分重要的角色。XMLSCHEMA作為描述XML的新的W3C推薦標(biāo)準(zhǔn),以其豐富的數(shù)據(jù)類型和靈活的結(jié)構(gòu)描述等優(yōu)點(diǎn),被許多系統(tǒng)所使用,越來越多的人開始研究基于XMLSCHEMA的數(shù)據(jù)驗證技術(shù)。針對XMLSCHEMA規(guī)范中規(guī)定的復(fù)雜數(shù)據(jù)類型的結(jié)構(gòu)描述,本文提出了一種稱為模式自動機(jī)SCHEMAAUTOMATON的數(shù)據(jù)結(jié)構(gòu),討論了將XML模式結(jié)構(gòu)轉(zhuǎn)換成模式自動機(jī)的方法,設(shè)計并實現(xiàn)了一種自動機(jī)驗證算法來驗證實例XML文檔的有效性,以解決XML結(jié)構(gòu)正則表達(dá)式驗證的問題。自動機(jī)驗證算法可以在模式空間內(nèi)高效地驗證每一個獲得的XML數(shù)據(jù),因此具有很高的效率。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 53
大?。?1.6(MB)
子文件數(shù):
-
簡介:本文主要為解決企業(yè)內(nèi)網(wǎng)協(xié)同辦公時的電子文檔安全問題。給出了一種基于BLP模型的電子文檔的保護(hù)方案。首先劃定了辦公文檔的保密等級和文檔能夠流轉(zhuǎn)的空間范圍。通過技術(shù)手段使高密級的文檔數(shù)據(jù)不能流轉(zhuǎn)到低密級的范圍中去。結(jié)合具體辦公環(huán)境,安全文檔的方案設(shè)計為將需被保護(hù)的電子文檔加密集中存儲到服務(wù)器端,客戶端需要時從服務(wù)器下載使用,使用完成后回收并刪除客戶端使用痕跡;并對文檔在客戶端駐留期間加以管控,使文檔內(nèi)容信息不會拷貝到其他低密級文件中或被打印。根據(jù)BLP模型思想,本方案首先劃分出允許高密級文檔流轉(zhuǎn)的安全區(qū)和可以允許低密級文檔流轉(zhuǎn)的非安全區(qū),確保受保護(hù)的高密級文檔僅能流轉(zhuǎn)在安全區(qū)中。安全區(qū)包括服務(wù)器端的文檔存儲區(qū)和客戶端的文檔使用區(qū)安全沙盒兩部分。并根據(jù)安全區(qū)兩部分的的不同特點(diǎn)分別做了如下技術(shù)保障服務(wù)器端存儲區(qū)將文檔傳輸并存儲到服務(wù)器過程中,為防止信息被截獲或竊取,本文借鑒了以往信息加密傳輸所用到的數(shù)字信封技術(shù),應(yīng)用密碼學(xué)中的非對稱加密技術(shù),給出了一種適合文檔存儲的加密方案。此方案保證了文檔信息在傳輸和存儲過程中被加密,且加密的文檔信息在服務(wù)器上存儲后,既能方便給自己打開,也能在不告知自己密鑰的情況下方便的將文檔安全地共享給其他人??蛻舳宋臋n使用區(qū)在客戶端建立一個安全沙盒。通過對所有進(jìn)程注入鉤子,托管其能使信息傳輸?shù)腁PI,管控其對保護(hù)文檔拷貝,復(fù)制,打印。確保被保護(hù)的文檔內(nèi)容信息無法流出安全沙盒。在受保護(hù)文檔被使用完成后,自動回收到服務(wù)器端存儲,并消除掉本地所留下的痕跡,做到客戶端不留痕。安全使用者為打開安全文檔的進(jìn)程,通過對進(jìn)程注入一個權(quán)限令牌與非安全進(jìn)程區(qū)分。通過注入鉤子,托管其能使信息傳輸?shù)腤INDOWSAPI。用戶登錄基于強(qiáng)身份認(rèn)證的用戶準(zhǔn)入機(jī)制通過“挑戰(zhàn)響應(yīng)”方式,客戶端服務(wù)器雙向互認(rèn)證,確保雙方的合法性。通過以上方式對文檔安全區(qū)的保護(hù),并輔之用戶身份認(rèn)證的系統(tǒng)準(zhǔn)入控制,從而保障了內(nèi)網(wǎng)文檔信息的安全。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 47
大小: 1.49(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 70
大?。?2.57(MB)
子文件數(shù):
-
簡介:傳統(tǒng)手寫輸入法在文字錄入的過程中,用戶免不了要進(jìn)行檢查識別結(jié)果是否正確和從識別候選列表中選擇正確的識別結(jié)果的操作。這樣的操作會打斷用戶書寫思路,書寫過程難以連貫、流暢的進(jìn)行,大大降低了手寫輸入效率,同時這種基于局部信息的識別無法充分利用用戶在輸入整段或整篇文檔時豐富的上下文信息,識別率也難以進(jìn)一步提升。針對傳統(tǒng)手寫輸入法存在的問題,提出一種支持用戶自由編輯已寫入的手寫字符的手寫文檔在線識別方法。這種方法將手寫文字編輯與手寫識別融合到一起,充分利用手寫文檔中字符間相似性特征和上下文信息,形成的一種基于手寫的自然、高效的人機(jī)交互的方法。在總結(jié)手寫字符識別算法和手寫字符筆跡相似度分析的研究現(xiàn)狀的基礎(chǔ)上,本文的研究內(nèi)容及主要工作包括以下幾個方面1提出改進(jìn)的動態(tài)時間彎曲算法,將該算法應(yīng)用到手寫體字符相似度的計算中,實現(xiàn)手寫文檔的文字相似性分析。2以手寫文檔的文字相似性分析的結(jié)果為基礎(chǔ),結(jié)合輸入內(nèi)容的上下文信息,提出了確定手寫文檔識別候選的方法和識別結(jié)果自適應(yīng)調(diào)整的方法。3設(shè)計并實現(xiàn)手寫文檔在線識別系統(tǒng),并通過試驗檢驗本文所提出的實現(xiàn)方法的有效性。經(jīng)實驗測試,本文提出的手寫文檔識別方法比手寫單字符識別算法在第一候選識別準(zhǔn)確率上提高近47%,前五候選識別準(zhǔn)確率上提高近25,候選結(jié)果修訂的自適應(yīng)調(diào)整方法提供智能修改的功能,能夠自動幫助用戶修改18的識別錯誤。實現(xiàn)的支持用戶自由編輯已寫入的手寫字符的手寫文檔在線識別系統(tǒng)能夠滿足用戶連續(xù)輸入、快速識別的錄入需求。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 60
大?。?0.87(MB)
子文件數(shù):
-
簡介:隨著微軟OFFICE系列文檔在桌面系統(tǒng)的廣泛應(yīng)用,其相關(guān)應(yīng)用軟件的安全問題引起了國內(nèi)外信息安全界和攻擊者的普遍關(guān)注,針對WD加密文檔的破解就是其中的研究熱點(diǎn)之一。傳統(tǒng)的方法通常采用暴力破解,但隨著WD文檔加密口令長度的加長,密鑰空間相應(yīng)增大,很難在有效的時間內(nèi)實現(xiàn)密鑰空間的完全搜索。本文主要圍繞WD加密文檔破解方法和技術(shù)展開研究。首先,研究了OFFICE復(fù)合文檔格式,對WD文檔二進(jìn)制結(jié)構(gòu)進(jìn)行了解析,并深入剖析了WD文檔的加密機(jī)制,利用加密機(jī)制中存在的缺陷,采用一種與口令長度無關(guān)的常量時間破解方案。其次,探討和分析了時空折衷算法的原理和實現(xiàn)機(jī)制,借鑒其應(yīng)用思想的基礎(chǔ)上,提出了一種利用時空折衷算法快速破解WD文檔的方法。時空折衷算法是一種使用預(yù)計算表快速逆轉(zhuǎn)單向函數(shù)的方法,它由預(yù)計算階段和在線階段兩個階段組成。預(yù)計算階段迭代調(diào)用單向函數(shù)構(gòu)建單向鏈,存儲計算得到的一個大小遠(yuǎn)小于完整的字典的摘要。在線階段對于一個給定的具體逆轉(zhuǎn)目標(biāo)點(diǎn),算法返回這一目標(biāo)點(diǎn)的一個原象,所需時間遠(yuǎn)小于窮舉搜索的時間。本文在彩虹表時空折衷算法的基礎(chǔ)上,根據(jù)WD文檔的加密機(jī)制,定義出破解WD文檔的單向函數(shù),由此設(shè)計了一種適合WD文檔破解的時空折衷算法,并通過實驗進(jìn)行了測試和驗證。最后,研究了MAPREDUCE分布式編程模型及其開源實現(xiàn)HADOOP框架。針對時空折衷算法預(yù)計算階段需花費(fèi)大量時間構(gòu)建表的問題,引入MAPREDUCE技術(shù),把預(yù)計算彩虹表的工作量分配給多個節(jié)點(diǎn),在計算機(jī)集群上并發(fā)地生成彩虹鏈并存儲于HADOOP分布式文件系統(tǒng)HDFS,設(shè)計了一個基于HADOOP、采用MAPREDUCE技術(shù)的時空折衷破解系統(tǒng),能高效穩(wěn)定地運(yùn)行分布式任務(wù)。利用HADOOP分布式框架構(gòu)建彩虹表,大大減少了構(gòu)建彩虹表的時間并方便管理彩虹表文件;利用HADOOP集群搜索彩虹表,進(jìn)一步提高了破解效率。在WD加密文檔破解的研究中,本文融合口令長度無關(guān)的攻擊方法與時空折衷算法,建立了一個WD加密文檔的破解模型,結(jié)合實際應(yīng)用,采用前沿的分布式框架實現(xiàn)了破解模型。論文研究成果對進(jìn)一步破解WD文檔具有一定的理論參考價值和實際應(yīng)用價值。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 67
大?。?0.46(MB)
子文件數(shù):
-
簡介:可擴(kuò)展標(biāo)記語言XML作為描述互聯(lián)網(wǎng)上結(jié)構(gòu)化信息和內(nèi)容的標(biāo)準(zhǔn),由于其簡單性、標(biāo)準(zhǔn)性以及豐富的數(shù)據(jù)結(jié)構(gòu),在電子商務(wù)、網(wǎng)絡(luò)出版和移動通信等領(lǐng)域得到廣泛應(yīng)用。隨著XML技術(shù)的不斷發(fā)展,越來越多的信息以XML文檔的形式存儲,如何確保XML文檔中敏感信息的安全也成為一項重要研究內(nèi)容。XML文檔本身具有樹形層次結(jié)構(gòu)的特點(diǎn),它按照一定規(guī)則將許多元素組合成一個文件。盡管XML文檔內(nèi)的信息是相互聯(lián)系的,但是這些信息的安全級別可能不同。因此根據(jù)XML的特點(diǎn),我們需要設(shè)計一個細(xì)粒度的訪問控制模型來實現(xiàn)對XML文檔的訪問控制。該模型不僅可以實現(xiàn)文檔級別的訪問控制,而且可以精確到元素甚至是屬性。本文的主要工作如下1論文首先以一個簡單的XML文檔為例對XML文檔的結(jié)構(gòu)和語法進(jìn)行了介紹,接著介紹了DTD、XMLSCHEMA、DOMSAX等XML規(guī)范。由于XMLSCHEMA比DTD更具優(yōu)越性,本文采用XMLSCHEMA對XML文檔進(jìn)行約束。接著對三種常用的訪問控制方法(包括自主訪問控制、強(qiáng)制訪問控制以及基于角色的訪問控制)進(jìn)行了研究,并對其各自的優(yōu)缺點(diǎn)做了分析。然后介紹了XACML規(guī)范。2根據(jù)XML文檔這一特殊訪問控制對象的特點(diǎn),我們在BLP模型的基礎(chǔ)上對主體和客體的標(biāo)簽進(jìn)行改進(jìn),提出了一個XML文檔的訪問控制模型EBLP模型,然后介紹了EBLP模型下的標(biāo)簽分配及規(guī)則,并對XML文檔的有效性和多實例等問題進(jìn)行了詳細(xì)的討論。3以EBLP模型和XACML技術(shù)為基礎(chǔ),設(shè)計了一個XML文檔的訪問控制系統(tǒng)XEBLP,給出了該系統(tǒng)的框架,介紹了各模塊的功能,并給出了系統(tǒng)的一個完整的訪問控制流程。由于采用了XACML表達(dá)訪問控制策略,該系統(tǒng)具有良好的通用性和可擴(kuò)展性,并支持分布式應(yīng)用。4對本文的工作做總結(jié),闡述了本文的主要研究成果,并對今后的工作做了進(jìn)一步的展望。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 58
大?。?2.23(MB)
子文件數(shù):
-
簡介:輿情,是指在一定的社會空間內(nèi),圍繞輿情因變事項的發(fā)生、發(fā)展和變化,作為主體的民眾對作為客體的執(zhí)政者及其所持有的政治取向產(chǎn)生和持有的社會政治態(tài)度。輿情信息是對輿情的一種描述和反映。在輿情信息系統(tǒng)中,表現(xiàn)輿情信息的形式可以有多種,目前還沒有固定標(biāo)準(zhǔn)。由于進(jìn)入輿情信息系統(tǒng)中的信息來源于多種多樣的數(shù)據(jù)源,而對于輿情信息的抽取和分析所使用的程序和算法是固定的,這就需要為各種數(shù)據(jù)源建立起一個統(tǒng)一的存儲模型。本文提出了一種基于樹的文檔模型,對這種緊密結(jié)合用戶需求的文檔模型的操作借鑒但不局限于W3C的DOM。本文基于和北京市某中心的合作項目,主要完成了以下工作1對不同來源的數(shù)據(jù)進(jìn)行抽象并建立基于樹的文檔模型;2文檔模型建立后,在其之上進(jìn)行信息抽取、信息過濾以及模型中各個分支的抽取與過濾;3經(jīng)過處理后的文檔模型,可被序列化存儲到數(shù)據(jù)庫中,并且分類和提供檢索;4對信息抽取和過濾計算準(zhǔn)確率和召回率。測試文檔生成的效率和占用內(nèi)存情況,做出分析和解析,使文檔模型能夠更加準(zhǔn)確地存在于系統(tǒng)之中。在設(shè)計和開發(fā)的過程中,應(yīng)用了許多計算機(jī)技術(shù),如數(shù)據(jù)庫連接池、面向?qū)ο蟮腏AVA語言程序設(shè)計,GUI部分用到的SWING類庫和JFREET包,軟件單元測試和極限編程的若干開發(fā)思想等等。在信息抽取源的選擇上包括了網(wǎng)頁、PDF、WD等,對于每種數(shù)據(jù)源都有相應(yīng)的數(shù)據(jù)適配器。對文檔模型的分類,采用了貝葉斯分類器,并動態(tài)調(diào)整反饋器的參數(shù)。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 68
大小: 2.71(MB)
子文件數(shù):
-
簡介:本文的主要成果提出了一種多模板匹配結(jié)合可信度分析的中文圖像文檔過濾方法,克服了傳統(tǒng)OCR速度慢的缺點(diǎn),同時改善了基于圖像特征匹配方法對字體和噪音敏感的特性。本文通過粗特征計算待檢字與各類的距離尺度,用以判別待檢字的歸屬類。若待檢字屬于關(guān)鍵字類,則進(jìn)一步用細(xì)特征對關(guān)鍵字及其相似字進(jìn)行類內(nèi)確認(rèn)。本文提出了一種基于隱性語義索引和線性判別分析的文檔傾向性判別方法。由于由訓(xùn)練數(shù)據(jù)生成的詞文檔矩陣維數(shù)很高,直接應(yīng)用線性判別分析計算量十分巨大。隱性語義索引是將多維特征映射成低維特征的一種方法,能最低限度地減少信息的丟失。本文最后總結(jié)了中文圖像文檔高速過濾中的關(guān)鍵技術(shù)研究成果。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 114
大?。?4.02(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 70
大小: 6.8(MB)
子文件數(shù):
-
簡介:關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中重要內(nèi)容之一旨在發(fā)現(xiàn)大量數(shù)據(jù)中項集之間的關(guān)聯(lián)或相關(guān)關(guān)系。將關(guān)聯(lián)規(guī)則挖掘技術(shù)應(yīng)用于WEB文檔分類可以更有效地組織和管理海量的WEB信息更快地查找網(wǎng)絡(luò)上的信息。然而目前大多研究者在WEB文檔分類中僅僅涉及到了正關(guān)聯(lián)規(guī)則挖掘而較少涉及負(fù)關(guān)聯(lián)規(guī)則。負(fù)關(guān)聯(lián)規(guī)則可以發(fā)現(xiàn)項集之間的負(fù)關(guān)聯(lián)關(guān)系是對正關(guān)聯(lián)規(guī)則挖掘技術(shù)的補(bǔ)充將負(fù)關(guān)聯(lián)規(guī)則挖掘技術(shù)應(yīng)用于WEB文檔分類就可以發(fā)現(xiàn)那些負(fù)相關(guān)的WEB文檔從而提高WEB文檔分類的正確度。然而如何把負(fù)關(guān)聯(lián)規(guī)則應(yīng)用于WEB文檔分類還是一個新問題為此本文對這一問題進(jìn)行了討論并提出了一種基于正負(fù)關(guān)聯(lián)規(guī)則的WEB文檔分類方法。本文介紹了目前WEB文檔分類所涉及的分類方法并對國內(nèi)外正負(fù)關(guān)聯(lián)規(guī)則的研究現(xiàn)狀進(jìn)行了總結(jié)提出了一種基于正負(fù)關(guān)聯(lián)規(guī)則的WEB文檔分類方法。該方法中首先對WEB文檔進(jìn)行預(yù)處理將非結(jié)構(gòu)化的數(shù)據(jù)變成結(jié)構(gòu)化數(shù)據(jù)從而建立起新的事務(wù)集合;然后利用APRII算法求出頻繁2項集后用修改后的PNARC模型進(jìn)行規(guī)則選擇刪除矛盾的關(guān)聯(lián)規(guī)則得到正確的正負(fù)關(guān)聯(lián)規(guī)則從而區(qū)分出文檔之間的相關(guān)性以此來確定文檔是否真正屬于同一類別并通過實驗對這個方法進(jìn)行驗證證明該算法可以對WEB文檔進(jìn)行正確的分類。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 61
大?。?2.32(MB)
子文件數(shù):
-
簡介:中南大學(xué)碩士學(xué)位論文基于半監(jiān)督學(xué)習(xí)的中文文檔分類技術(shù)研究姓名何堯申請學(xué)位級別碩士專業(yè)計算機(jī)應(yīng)用技術(shù)指導(dǎo)教師趙躍龍20050301中南大學(xué)碩士學(xué)位論文ABSTRACTABSTRACTTEXTCLASSIFICATIONISASUPERVISEDLEARNINGTASKOFASSIGNINGNATURALLANGUAGETEXTDOCUMENTSTOONEORMOREPREDEFINEDCATEGORIESORCLASSESACCORDINGTOTHEIRCONTENTSITHASRECENTLYATTRACTEDANINCREASINGAMMOUNTOFATTENTIONDUETOTHEEVEEXPANDINGAMOUNTOFTEXTDOCUMENTSAVAILABLEINDIGITALFORMTEXTCLASSIFICATIONISWIDELYAPPLIEDINEVERYFIELDSOFTEXTPROCESSANDINFORMATIONRETRIEVAL,HASBECAMETHEKEYTECHNIQUEINPROCESSANDORGANIZELARGESCALETEXTINFORMATION,ANDIMPULSESTHEINFORMATIONPROCESSTOTHEDIRECTIONOFAUTOMATIONTHISTHESISFIRSTLYINTRODUCESGENERALDEVELOPMENTANDSOMETECHNIQUESOFINFORMATIONCLASSIFICATIONTHENSOMEANALYSESANDREMARKSAREMADETOCOMPARETHEPERFORMANCEOFSOMETYPICALCLASSIFICATIONIALGORITHMSOFFEATURESELECTION,F(xiàn)EACTUREEXTRACTION,ANDWEIGHTCALCULATION,CLASSIFICATIONALGORITHMSECONDLYCONSIDERINGTHECONTRADICITONOFDEADLYNEEDFORLARGELABELEDTRAINSETTOOBTAINHIGHCLASSIFICATIONACCURACYANDTHESCARCITYOFLABELEDDOCUMENTS,THISTHESISEMPHASIZESONIMPROVEMENTOFSEMISUPERVISEDCLASSIFICATIONALGORITHMS,ANALYSISALLTHEEXISTIEDSEMISUPERVISEDCLASSIFICATIONALOGRITHMNSANDFINDWHILEUNLABELEDDATASAMPLESCARLHELPTOIMPROVETHEACCURACYOFTRAINEDMODELSTOCERTAINEXTENTEXISTINGMETHODSSTILLFACEDIFFICULTIESWHENLABELEDDATAIS6XTREMELYSMALL,EGCONTAININGLESSTHAN10LABELEDEXAMPLESINEACHCLASS,ANDBIASEDAGAINSTTHEUNDERLYINGDATADISTRIBUTIONTHISPAPERPRESENTACLUSTERINGBASEDCLASSIFICATIONAPPROACHUSINGTHISAPPROACH,TRAININGDATAINCLUDINGBOTHTHELABELEDANDUNLABELEDDATAISFIRSTCLUSTEREDWITHTHEGUIDANCEOFTHELABELEDDATASOMEOFUNLABELEDDATASAMPLESARETHENLABELEDBASEDONTHECLUSTERSOBTAINEDDISCRIMINATIVECLASSIFIERSCANSUBSEQUENTLYBETRAINEDWITHTHEEXPANDEDLABELEDDATASETTHEEFFECTIVENESSOFTHEPROPOSEDMETHODISJUSTIFIEDANALYTICALLYFINALLYIDESIGNADOCUMENTCLASSIFICATIONSYSTEMANDCONDUCTEDNI
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 64
大?。?2.44(MB)
子文件數(shù):