-
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 82
大小: 4.66(MB)
子文件數(shù):
-
簡介:華東師范大學碩士學位論文OFFICE文檔對象分析與自動閱卷系統(tǒng)研究姓名吳宏良申請學位級別碩士專業(yè)軟件工程指導教師金炳堯20091101ABSTRACTWITHTHEDEGREEOFINFORMATIONBASEDSOCIETYCONSTANTLYIMPROVE,THECOMPUTERAPPLICATIONABILITY‘SPOPULARIZATIONTRAINEDANDINSPECTSHADALREADYBECOMEAILINDUSTRYINTHEINSPECTION,THETRADITIONMANUALMARKINGISSUBSTITUTEDFORTHEAUTOMATICMARKINGGRADUALLYATPRESENTTHEAUTOMATICMARKINGSYSTEMISCOMPETENTINMARKINGTHEOBJECTIVETESTQUESTION,BUTNOTINMARKINGTHEPRACTICETHEREFORE,HOWTOUTILIZESOMENEWSTRATEGIESTOREFLECTREALLY,ACCURATELY,OBJECTIVELYTHELEVELOFTHEAPPRAISEDPERSON’SKNOWLEDGEANDABILITY,HASBECOMETHEHOTRESEARCHTOPICAUTOMATICMARKINGSOFOFFICEDOCUMENTSWERESTUDIEDINTHISPAPERTHEINFORMATIONCONTENTOFTHEOFFICEDOCUMENTSISHUGE,ANDTHEINTERNALSTRUCTUREOFTHEMISCOMPLEXTHEREFORE,ITISVERYDIFFICULTTOMARKTHESEPRACTICETESTQUESTIONDOCUMENTSWITHTHEORDINARYDOCUMENTSCORRELATIONMETHODNOMATTERMACROORVBA,OPERATESTHEOFFICEDOCUMENTS,OROBTAINSTHEIRATTRIBUTEINFORMATIONBYUSINGONEOFTHEVISUALBASIC’SSUBSETSTHEDEPTHMETICULOUSRESEARCHNEEDSTOBECARRIEDOUTONSEVERALASPECTPROBLEMSINMARKINGAUTOMATICLYTHEOFFICEDOCUMENTSFROMTHETHEORYANGLE,WHICHOPERATIONSINTHEOFFICEDOCUMENTSAREJUDGED,CANBEMARKEDAUTOMATICALLY;FROMTHEPRACTICEANGLE,HOWTOWITHDRAWTHEOFFICEDOCUMENTSATTRIBUTES,USEDFORTHEJUDGMENTINOPERATIONACCURACYONTHEEXAMINEE’SOFFICEDOCUMENTS;HOWTOGRASPTHEMETHODOFGAININGTHEOBJECTPROPERTIESINFORMATION,TOKNOWITSDATACONSTRUCTIONORITSDATATYPE,TOUNDERSTANDTHECONNECTIONWITHTHISOBJECTANDOTHERRELATEDOBJECT,TOUNDERSTANDSOMESPECIALREQUESTSOFVISITINGTHISOBJECT,ANDSOON;HOWTOFORMULATETHEREASONABLESTANDARDANDSTRATEGYUSEDFORMARKINGTESTPAPERS,WHICHCANCAUSETHEAUTOMATICMARKINGSYSTEMTOBEMOREOBJECTIVEBECAUSEEACHOFFICEDOCUMENTSARECOMPOSEDOFMANYOBJECTS,THESEOBJECTSANDTHEIRATTRIBUTEVALUEHAVEDECIDEDTHESTRUCTUREANDFORMOFTHEOFFICEDOCUMENTSTHISARTICLEPROVIDESAFEASIBLEPLANWHICHUSEDFORTHEDEVELOPMENTOF
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 78
大?。?2.99(MB)
子文件數(shù):
-
簡介:飛行試驗是發(fā)展航空科學技術的關鍵環(huán)節(jié)之一,貫穿于飛行研究、新機設計、研制定型、生產(chǎn)和復議使用的全過程,試飛已不再是簡單地驗證設計,而是衡量飛機設計優(yōu)劣程度的標準和進一步修改設計的依據(jù)。中航工業(yè)哈爾濱飛機工業(yè)集團有限責任公司試飛站在飛行試驗過程中發(fā)現(xiàn),試驗所獲取的數(shù)據(jù)量極為龐大復雜,且報告文檔種類名目繁多,針對目前數(shù)據(jù)和文檔管理分散,集中性和共享性不大的現(xiàn)狀,試飛站要求按單一數(shù)據(jù)源管理建立數(shù)據(jù)和文檔管理系統(tǒng)。根據(jù)哈飛集團試飛站的需求,本文在VISUALC60集成開發(fā)環(huán)境下設計并編碼實現(xiàn)了飛行試驗數(shù)據(jù)和文檔管理系統(tǒng),基于SOLSERVER2000建立了其數(shù)據(jù)庫系統(tǒng)。所開發(fā)的軟件系統(tǒng)實現(xiàn)了飛行試驗數(shù)據(jù)的儲存、轉換與檢索、保存以及文檔的登記、編寫、信息統(tǒng)計和歸檔管理等功能。提高了試飛站內試飛數(shù)據(jù)和文檔管理的集中性和共享性,加快了處理速度,減輕了試飛站人員的工作量,提高了工作效率。在試飛站數(shù)據(jù)和文檔管理中發(fā)揮了重要作用,成為了試飛站的一個快捷有力的工具。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 77
大小: 20.38(MB)
子文件數(shù):
-
簡介:傳統(tǒng)的信息特別是書籍、報紙等出版印刷領域的信息存儲形式一般是把版式信息和信息本身給混合在一起這樣就導致很難重復利用信息本身。因此需要有一種有效的方式來存儲信息這種信息存儲方式能夠使存儲格式跨平臺內容和版式要分離存儲形式要滿足可重用的要求?;谄位疿ML文檔結構的內容重組模型的研究目標是尋找準確、高效、能重復利用文本內容的方法。XML是理想的文檔編寫格式對于信息開發(fā)有以下優(yōu)勢它強調的是內容的結構而不是形式可以更好地保持內容的一致性并更好地保證內容的表現(xiàn)形式對各種不同輸出設備和格式的一致性。通過對國內外內容重組技術的研究充分地分析了圖書、期刊、報紙、標準等各種出版物的結構設計出了基于片段化XML文檔結構的內容重組模型。并對模型的思想模型的詳細描述模型的實現(xiàn)進行了詳細地介紹?;谄位疿ML文檔結構的內容重組模型通過內容對象的基礎模型到復合文檔結構的映射表將基于片段化XML文檔結構的內容對象通過映射重組為具備層級結構的復合文檔。在映射重組過程中根據(jù)最終交付文檔的語義表現(xiàn)形式生成面向不同主題的交付文檔。基于片段化XML文檔結構的內容重組模型將劃分成適當顆粒度的內容模塊也就是主題存放在主題庫中通過映射將與創(chuàng)作有關的主題組織和連接在一起。按照所需交付出版物設定相應的樣式模板選擇相應的輸出類型通過XSLT技術轉換得到最終交付出版物?;赬ML文檔結構的內容重組模型能夠很好地支撐不同XML文檔結構間轉換和組合關系。但是其XML結構文檔需要合理化片段化的內容要能很好地獨立描述完整的意思這樣重組映射出來的文檔才能不利用上下文的關系而很好地重組為最終交付物。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 64
大?。?1.95(MB)
子文件數(shù):
-
簡介:關鍵詞自動抽取是依靠計算機從文檔中選擇出反映主題內容的詞,也稱作關鍵詞自動標引,可以為用戶提供一個簡潔的內容摘要,使信息定位更加簡單。本文研究從同主題的文檔集中抽取關鍵詞來發(fā)現(xiàn)主題的算法,主要研究成果如下1提出了計算多文檔詞語權重的ATFPDF方法。在文檔集中包含某個詞語的文檔數(shù)越多,該詞語越可能是表達文檔集主題的重要成分,ATFPDF方法中詞語權重和詞語出現(xiàn)的文檔頻率成指數(shù)級,比成線性關系時有更好的關鍵詞抽取效果。另外,該方法還考慮了文檔集中單個文檔大小對詞語權重的影響。2提出了基于聯(lián)合權重的關鍵詞抽取方法,并改進TEXTRANK方法用于抽取多文檔生成關鍵詞時,考慮到候選關鍵詞中可能存在冗余現(xiàn)象,本文使用“聯(lián)合權重方法”聯(lián)合那些相互之間語義相似度較大的詞語的權重,從而調整候選關鍵詞的排序來選擇關鍵詞;另外,考慮到表達同一主題的詞語之間存在較強的語義關系,本文改進TEXTRANK方法來使相互之間語義關系較強的詞語互相加強重要性,重新計算候選關鍵詞在TEXTRANK模型中的權重。實驗證明,和基于聚類的關鍵詞標記方法相比,本文提出的兩種方法在關鍵詞抽取效果上均有一定的提高。本文將聚類技術與多文檔關鍵詞抽取技術相結合來構建新型的聚類搜索引擎,并和商業(yè)聚類搜索引擎ⅥVISIMO進行了對比,闡述了各自的優(yōu)缺點。最后對本文工作進行了總結并給出了多文檔關鍵詞抽取技術的下一步研究目標。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 71
大小: 7.31(MB)
子文件數(shù):
-
簡介:多文檔自動摘要是數(shù)據(jù)挖掘、信息檢索等領域非常亟需解決的問題之一。目前,學術界對于多文檔自動摘要的研究已經(jīng)取得了顯著的成果,提出了很多多文檔自動摘要的算法。但是由于應用的領域的不同,處理的數(shù)據(jù)的不同以及多文檔自動摘要任務本身的復雜性,多文檔自動摘要任務還存在著許多問題,需要研究和解決。本文面向科技領域,首先基于本文提出的改進的基于凝聚的層次聚類算法進行多文檔自動摘要,然后利用本文提出的改進的信息抽取算法對聚類結果進行了信息抽取,并依據(jù)結果自動生成綜述報告。利用改進的基于凝聚的層次聚類的算法進行多文檔自動摘要,將多文檔摘要的任務轉化為文檔聚類的任務,傳統(tǒng)的特征選取方法并不對詞區(qū)別對待,本文對特征選取方法進行改進提出了基于實體詞和專有名詞的特征選取方法,針對不同的特征選取方法進行對比實驗。由于基于傳統(tǒng)聚類方法進行多文檔摘要,通常采用余弦相似度,并沒有對學術文獻各部分區(qū)別對待,本文提出了基于多維度的相似度計算方法,對學術文獻各部分分別計算相似度并線性加權,并且將相似度賦予不同的權值進行累加整合作為文獻相似度,得到了更好的性能。在本文的聚類過程中,提出一種改進的基于凝聚的層次聚類方法,較之于傳統(tǒng)的基于凝聚的層次聚類方法,此算法要求簇之間距離更緊密,對于科技領域達到了更好的效果。顯然,研究人員不滿足于了解學術文獻的聚類劃分,更希望知道學術文獻的研究類別,研究方法等信息?;谶@個需求,本文首先采用改進的基于統(tǒng)計的信息抽取方法對研究類別進行信息抽取,并針對學術文獻各部分的重要程度不同,提出了改進的詞頻的權重計算方法,提高的信息抽取效果。然后,本文針對科技領域的特殊性,提出了基于規(guī)則與統(tǒng)計相結合的信息抽取方法,相比較傳統(tǒng)的基于規(guī)則的信息抽取算法,本文將規(guī)則與淺層句法分析相結合,使信息的抽取性能得到提升。最后本文依據(jù)上述聚類以及信息抽取結果,并對研究的時間段,作者分布,研究方向,研究方法等進行統(tǒng)計,最后對研究方向做出預測,自動生成綜述報告供研究人員閱讀。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 70
大?。?3.4(MB)
子文件數(shù):
-
簡介:在計算機網(wǎng)絡技術飛速發(fā)展的背景下,互聯(lián)網(wǎng)環(huán)境下的軟件形態(tài)和功能正發(fā)生著深刻的變化,這給國產(chǎn)辦公軟件的發(fā)展帶來了機遇,網(wǎng)絡集成化辦公已成為趨勢。在該領域中,SAAS(SOFTWAREASASERVICE,軟件即服務)模式逐漸被接受,而國際傳統(tǒng)辦公軟件巨頭所熟悉和擅長的套裝軟件商業(yè)模式正在發(fā)生變化。更為重要的是,辦公文檔數(shù)據(jù)的形態(tài)和存儲載體也發(fā)生了改變,90%以上的數(shù)據(jù)來源于并儲存于互聯(lián)網(wǎng)。由于網(wǎng)絡集成化辦公所帶來的辦公環(huán)境的復雜性,使得文檔安全面臨著重大的挑戰(zhàn),一些涉及機密的辦公文檔的外泄會給政府部門或者企業(yè)造成不可估量的損失,因此需要對辦公文檔進行有效的安全管理。本論文在實驗室與無錫永中軟件有限公司合作承擔的國家核高基重大專項“網(wǎng)絡集成辦公軟件研發(fā)及產(chǎn)業(yè)化”的項目背景下,針對網(wǎng)絡集成化辦公所帶來的文檔安全問題,研究辦公文檔的安全管理機制,設計文檔透明加密技術、訪問控制技術和數(shù)字簽名技術,實現(xiàn)了對永中OFFICE辦公文檔的安全管理。論文的研究工作主要包括以下四個方面1研究基于文件過濾驅動的文檔透明加密技術,設計基于MINIFILTER過濾驅動框架的文件過濾驅動,實現(xiàn)了對永中OFFICE辦公文檔的透明加解密2研究用戶管理和RBAC訪問控制技術,設計并實現(xiàn)了對永中OFFICE二進制辦公文檔的訪問控制和基于XML格式的UOF新型辦公文檔的細粒度訪問控制3研究XML文檔數(shù)字簽名技術,依據(jù)XPATH文檔劃分規(guī)則設計并實現(xiàn)了基于XML格式的UOF新型辦公文檔的多重簽名機制4基于上述技術,完成了辦公文檔安全管理系統(tǒng)的整體和功能模塊設計,實現(xiàn)了針對永中OFFICE辦公文檔的安全管理系統(tǒng)。綜上所述,論文在研究現(xiàn)有的文檔加密、訪問控制和數(shù)字簽名技術的基礎上,提出基于MINIFILTER過濾驅動框架的文檔透明加密和訪問控制機制,并設計了基于XML格式的UOF新型辦公文檔的細粒度訪問控制和多重簽名機制,最后設計并實現(xiàn)了對永中OFFICE辦公文檔的安全管理系統(tǒng)。系統(tǒng)功能和性能測試表明,該安全管理系統(tǒng)滿足設計需求,能夠有效保障辦公文檔的安全。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 91
大?。?16.74(MB)
子文件數(shù):
-
簡介:文檔管理是當前各政府部門、企事業(yè)單位行政管理中的一個重要部分。越來越多的機構將文檔管理作為提升管理效率的一個突破口。很多企業(yè)采用了專業(yè)化的文檔管理系統(tǒng),并分派專職人員對所有文檔進行歸納、整理。工商局作為政府的行政部門,除了常規(guī)的一些企業(yè)資料外,還要管理領導講話、上級部門傳達精神、會議記錄、人事任免公告、問題整改紀要等一些重要或涉密的內容,因此文檔管理系統(tǒng)成為了一個必要選擇。本文在分析了目前國內外文檔管理系統(tǒng)的發(fā)展情況的基礎上,按照德陽市工商局工作開展的實際需要,使用了角色訪問控制模型(RBAC)的基本原理分配各角色權限,最后采用改進的RBAC模型RDPU訪問控制模型建立系統(tǒng)管理的安全機制,提出了基于RDPU模型的文檔管理系統(tǒng)。RDPU模型與RBAC模型的區(qū)別在于,從訪問權限的設置上,權限的分配不僅僅通過角色(ROLE),還可以通過以下幾種方式分配用戶(USERS)、科室(DEPARTMENT)、職位(POSITION)。這種分配方式能有效地降低系統(tǒng)授權的復雜度,細化了各個職責的分工,RDPU模型名稱也由此得來(ROLE,DEPARTMENT,POSITION,USERS)。在系統(tǒng)的開發(fā)過程中,本文還采用了一些常規(guī)技術手段,如面向對象的方法、UML用例分析、數(shù)據(jù)庫關聯(lián)下的存儲等來完善系統(tǒng)。系統(tǒng)采用框架體系、BS三層邏輯結構、SQL2000數(shù)據(jù)庫、C#語言為具體實現(xiàn)手段,同時充分運用了WEB服務來開發(fā)文檔中的各種重要功能,包括身份認證、權限控制、文檔管理等。存儲方式上同時采用了文件系統(tǒng)與關系型數(shù)據(jù)庫,保證各類文檔能進行合理存儲多媒體文檔存儲于關系型數(shù)據(jù)庫中,存儲時將文檔正文和文檔相關信息分開;普通辦公文檔則存于文件系統(tǒng)中,保證空間利用的高效性。文檔系統(tǒng)開發(fā)完成后,可以基本滿足工商局員工的辦公要求。在保證具有良好的操作界面的情況下,系統(tǒng)還要具有較好的跨平臺性、安全性、可擴展性,同時能方便的與現(xiàn)有系統(tǒng)相結合。特別是文件系統(tǒng)與關系型數(shù)據(jù)庫聯(lián)合存儲的方式,大大提高了系統(tǒng)的存儲效率和訪問速度。WEB服務的身份認證方式也使系統(tǒng)開發(fā)更為簡單,安全性能更高。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 76
大?。?2.63(MB)
子文件數(shù):
-
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 64
大小: 16.26(MB)
子文件數(shù):
-
簡介:學號學號20070211282007021128姓名趙姓名趙娜聯(lián)系電話聯(lián)系電話1360531524713605315247EMAILEMAILZHAONA_07GJ126COMZHAONA_07GJ126COM所在學院管理與經(jīng)濟學院所在學院管理與經(jīng)濟學院
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 60
大?。?1.49(MB)
子文件數(shù):
-
簡介:華北電力大學(保定)博士學位論文基于XML文檔結構語義的信息檢索方法與應用研究姓名李新葉申請學位級別博士專業(yè)電工理論與新技術指導教師苑津莎20081201聲明尸明本人鄭重聲明此處所提交的博士學位論文基于XML文檔結構語義的信息檢索方法與應用研究,是本人在華北電力大學攻讀博士學位期間,在導師指導下,獨立進行研究工作所取得的成果。盡我所知,除文中已經(jīng)注明引用的內容外,本學位論文的研究成果不包含任何他人享有著作權的內容。對本論文所涉及的研究工作做出貢獻的其他個人和集體,均己在文中以明確方式標明。簽名壟盤士日期盟。ZZ塹關于學位論文使用授權的說明本人完全了解華北電力大學有關保留、使用學位論文的規(guī)定,即①學校有權保管、并向有關部門送交學位論文的原件與復印件;②學校可以采用影印、縮印或其它復制手段復制并保存學位論文;③學??稍试S學位論文被查閱或借閱④學校可以學術交流為目的,復制贈送和交換學位論文;⑤同意學??梢杂貌煌绞皆诓煌襟w上發(fā)表、傳播學位論文的全部或部分內容。涉密的學位論文在解密后遵守此規(guī)定作者簽名趔日期盟F≤導師簽名日期
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 96
大?。?3.87(MB)
子文件數(shù):
-
簡介:隨著計算機技術和網(wǎng)絡技術的迅速發(fā)展,INTER上的信息呈指數(shù)級增長。文本信息是其中最重要的組成部分之一。如何從這些海量的文本信息中獲取有用信息,一直以來都是信息處理中重要問題。文本分類技術是信息檢索和文本挖掘的重要基礎,它是在預先給定的類別標簽集合下,根據(jù)文本的內容判定文本的類別。文本分類已成為一項具有較大實用價值的關鍵技術,是組織和管理數(shù)據(jù)的有效手段。本體作為一種知識表示的模型,能夠提供豐富的語義知識,其內部的概念與概念之間的關系可以支持推理機制。同時,本體作為領域內的概念體系,能夠提供很好的類別標簽,這樣就解決類別標簽過多,訓練集不好收集的問題。本文在食品領域專家的幫助下,通過市場調研,利用斯坦福大學開發(fā)的本體構建工具PROTéGé342手動構建一個奶制品本體。同時,本文通過反復實驗提出一種改進的核心窗口模型相似度計算方法,即增量窗口相似度計算方法,該方法對于采用窗口形式進行相似度計算時,有效避免了窗口長度對相似度值的影響。本文將增量窗口相似度計算方法與領域本體結合,采用技術手段對領域本體進行解析,得到領域本體提供的類別標簽,通過動態(tài)的改變窗口的寬度,同時消除窗口寬度對相似度值的影響,進而實現(xiàn)分類。本文通過一系列實驗,證明該增量窗口相似度計算方法優(yōu)于其它幾種消除窗口長度影響的方法該方法及傳統(tǒng)的TFIDF、核心窗口模型相似度計算方法,分別與領域本體結合構成分類器,其在分類精準率、召回率及F1值均有明顯提高。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 36
大?。?3.06(MB)
子文件數(shù):
-
簡介:隨著數(shù)字圖像處理技術的飛速發(fā)展數(shù)字圖像得到了越來越廣泛的應用由于自動化、數(shù)字化辦公需求的增長逐步形成了由紙質文檔資料的手工處理轉化成數(shù)字文檔圖像自動處理的趨勢研究文檔圖像的智能處理技術以及對其中特定信息對象的識別提取技術有著重要的現(xiàn)實意義討論了文檔圖像處理的應用現(xiàn)狀及發(fā)展方向通過對典型的文檔圖像識別系統(tǒng)組成結構的描述闡述了預處理在文檔圖像處理系統(tǒng)中的重要地位歸納了幾何變換、圖像增強、圖像復原等常用的文檔圖像預處理方法圍繞傳統(tǒng)的圖像預處理方法無法針對不同識別對象的特點進行特殊處理對特定的應用難以達到很好的效果等問題給出了一種針對光學標記識別的信息卡文檔圖像預處理方法預處理過程包括四個階段灰度圖像平滑處理、圖像二值化處理、圖像的偏斜糾正、二值圖像平滑處理灰度圖像平滑處理采用鄰域平均方法可以弱化加性噪聲、乘性噪聲、量化噪聲和椒鹽噪聲等圖像二值化處理采用全局閾值方法圖像的偏斜糾正采用一種基于水平投影直方圖和WIGNERVILLE分布的算法能夠在偏斜角度檢測的精確度和計算開銷之間取得較好的平衡二值圖像平滑處理采用了可明顯消除斑點、缺隙及毛刺噪聲的模式化方法最后給出了系統(tǒng)的實現(xiàn)效果及結果分析實驗結果表明信息卡文檔圖像經(jīng)過預處理后不僅圖像質量有較大改善并且圖像識別率有較大的提高
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 58
大?。?1.45(MB)
子文件數(shù):
-
簡介:文檔自動分類作為信息處理技術的關鍵技術之一,具有重要的理論和應用價值。目前文檔自動分類在信息處理方面的應用大致有搜索引擎技術、郵件分類、電子會議、信息過濾等很多方面。現(xiàn)有文檔自動分類技術的特征提取環(huán)節(jié),在文檔不規(guī)范性、算法的局限性等諸多原因的制約下,特征向量中沒有體現(xiàn)文檔的語義信息。為了降低這種現(xiàn)象對文卡當自動分類準確度的影響,提高文檔自動分類的召回率和準確率,很多的研究人員在這個方面做了大量工作,取得了很多的成果。本論文主要研究了文檔自動分類各個環(huán)節(jié)的算法原理,簡要的闡述了文檔自動分類的發(fā)展、應用和現(xiàn)狀,詳細地描述了空間向量模型的原理與實現(xiàn)方法,重點地論述了改進后的空間向量模型在文檔自動分類系統(tǒng)中的應用,將段落向量、詞距向量與傳統(tǒng)的空間向量模型相結合應用到文檔的特征提取當中。另外,重點論述了一種改進的中文分詞算法在文檔自動分類系統(tǒng)中的應用,將概率統(tǒng)計模型和詞語查找樹模型應用到中文分詞中。試驗結果表明,改進后的向量空間模型顯著的提高了文檔自動分類的準確率和召回率,既能完整的體現(xiàn)文檔含義,又能加入文檔的語義信息,有利于分類的進一步處理。改進后中文分詞算法效果明顯,進一步提高了向量空間模型表示文檔的質量。
下載積分: 5 賞幣
上傳時間:2024-03-10
頁數(shù): 67
大?。?3.02(MB)
子文件數(shù):
-
簡介:使用美國微軟公司的WD文檔編輯軟件進行文字錄入和編輯排版在現(xiàn)今的同常工作中已經(jīng)成為一種十分普遍的現(xiàn)象用WD文檔取代紙質文檔進行文件的下發(fā)、傳遞也成為了一種必然的趨勢。然而WD本身提供的安全機制卻不足以強大到對所編輯文檔進行全面保護的地步這就直接導致了一些文檔安全方面的問題不能得到完善的解決。而現(xiàn)有的安全系統(tǒng)產(chǎn)品又存在著成本較高、使用較復雜、不便于維護等缺點。本文針對以上這些現(xiàn)存的問題結合密碼學、數(shù)字簽名以及數(shù)字圖像水印等信息安全學方面的理論提出了一種離線的WD文檔保護平臺設計方案該方案在不使用基于網(wǎng)絡的公鑰基礎設施PUBLICKEYINFRASTRUCTUREPKI和證書中心CERTIFICATEAUTHITYCA進行在線安全認證的情況下可以保證保密文檔在傳播過程中的保密性提供了對于文檔來源真實性和文檔內容完整性的認證并通過對用戶身份和相應權限的管理來控制文檔散發(fā)范圍進一步提高了WD的安全性能。本軟件通過對WD對象模型的二次開發(fā)實現(xiàn)使用VISUALBASIC和VISUALC進行混合編碼利用COM技術將其嵌入到WD程序中達到了增強WD的安全功能的目的。
下載積分: 5 賞幣
上傳時間:2024-03-09
頁數(shù): 75
大?。?2.28(MB)
子文件數(shù):