版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、書(shū)《現(xiàn)代圖書(shū)情報(bào)技術(shù)》版權(quán)所有,歡迎下載引用!請(qǐng)注明引用地址:相似重復(fù)記錄清理方法研究綜述[J],現(xiàn)代圖書(shū)情報(bào)技術(shù),2010(9):56-6656現(xiàn)代圖書(shū)情報(bào)技術(shù)相似重復(fù)記錄清理方法研究綜述葉煥倬吳迪(中南財(cái)經(jīng)政法大學(xué)信息與安全工程學(xué)院信息系武漢430073)【摘要】介紹相似重復(fù)數(shù)據(jù)清理的步驟、框架和衡量標(biāo)準(zhǔn)。重點(diǎn)對(duì)檢測(cè)和清除算法按照算法類型及相關(guān)改進(jìn)思路進(jìn)行分類綜述,給出算法的適用范圍和優(yōu)缺點(diǎn),概括現(xiàn)有的數(shù)據(jù)清理工具(如Merge/
2、Purge)。對(duì)相似重復(fù)記錄清理領(lǐng)域的研究問(wèn)題進(jìn)行展望,將知識(shí)和語(yǔ)義的概念引入到數(shù)據(jù)清理框架中是未來(lái)重要的發(fā)展趨勢(shì)?!娟P(guān)鍵詞】相似重復(fù)記錄數(shù)據(jù)清洗檢測(cè)算法清除算法【分類號(hào)】G202TP3911ASurveyofApproximatelyDuplicateDataCleaningMethodYeHuanzhuoWuDi(DepartmentofInformation,SchoolofInformationandSafetyEngineer
3、ing,ZhongnanUniversityofEconomicsandLaw,Wuhan430073,China)【Abstract】Thispaperintroducesthesteps,frameworksandmetricsofapproximatelyduplicatedatacleaningThen,thedetectalgorithmsandtheeliminationalgorithmsaresurveyedessent
4、ially,accordingtotypeandtheirimprovementmethods,andthealgorithmsusagescopeandtheiradvantagesanddisadvantagesaregivenManydatacleaningtoolsarepresented,suchasMerge/PurgeFinaly,itdiscussesthefutureresearchtopicsindatacleani
5、ngandpointsoutthattheconceptofknowledgeandsemanticusedintheframeworkofdatacleaningwillbeanimportanttrend【Keywords】ApproximatelyduplicatedataDatacleaningDetectalgorithmEliminatealgorithm收稿日期:2010-07-12收修改稿日期:2010-08-18本文
6、系國(guó)家自然科學(xué)基金資助項(xiàng)目“持續(xù)審計(jì)中智能數(shù)據(jù)處理及其應(yīng)用框架研究”(項(xiàng)目編號(hào):70972138)和湖北省教育廳人文社會(huì)科學(xué)基金項(xiàng)目“基于SOA和MAS的金融監(jiān)管信息系統(tǒng)總體框架研究”(項(xiàng)目編號(hào):2009b080)的研究成果之一。1引言隨著信息技術(shù)的不斷發(fā)展和信息化建設(shè)的不斷深入,企事業(yè)單位、圖書(shū)館等在進(jìn)行信息系統(tǒng)集成和重構(gòu)時(shí),數(shù)據(jù)庫(kù)中積累了大量的臟數(shù)據(jù)。如何將臟數(shù)據(jù)有效轉(zhuǎn)化成高質(zhì)量的干凈數(shù)據(jù)是系統(tǒng)要解決的首要問(wèn)題,這涉及到數(shù)據(jù)清理的技
7、術(shù)。數(shù)據(jù)清理(DataCleaning,DataCleansing或DataScrubbing)也稱為數(shù)據(jù)清洗,目的是檢測(cè)數(shù)據(jù)中存在的錯(cuò)誤和不一致,剔除或者改正它們,以提高數(shù)據(jù)的質(zhì)量[1]。臟數(shù)據(jù)按其不同的表現(xiàn)形式可具體概括為不完整數(shù)據(jù)、相似重復(fù)數(shù)據(jù)和錯(cuò)誤數(shù)據(jù)三種類型[1,2]。其中多數(shù)據(jù)源合并造成的信息重復(fù)是最關(guān)鍵的問(wèn)題,因此重復(fù)信息的檢測(cè)和清除成為一個(gè)研究的熱點(diǎn)[3,4]。2相似重復(fù)記錄清理概述21數(shù)據(jù)質(zhì)量問(wèn)題的分類進(jìn)行數(shù)據(jù)清理的最
8、終目的是提高數(shù)據(jù)的質(zhì)量,數(shù)據(jù)質(zhì)量問(wèn)題在微觀層面分為單數(shù)據(jù)源(Single-Source)和多情報(bào)分析與研究58現(xiàn)代圖書(shū)情報(bào)技術(shù)-Grams算法(N-GramAlgorithm)、對(duì)XML數(shù)據(jù)的匹配算法(MatchingAlgorithmforXML)等。31字段匹配算法字段匹配是用來(lái)確定兩個(gè)字段值是否表示同一個(gè)語(yǔ)義實(shí)體的句法上的可替換者,是記錄匹配的基礎(chǔ)?;镜淖侄纹ヅ渌惴ê瓦f歸的字段匹配算法是兩種最基礎(chǔ)的字段匹配算法?;镜淖侄纹ヅ渌?/p>
9、法利用兩個(gè)分詞串中順序匹配的分詞個(gè)數(shù)除以它們平均的所有的分詞個(gè)數(shù),以此來(lái)計(jì)算匹配度。如表1中兩個(gè)地址字段,在A中有k=6個(gè)單詞(Comput、Sci、University、California、San、Diego)與B中的單詞匹配,則匹配度為k/[(|A|+|B|)/2]=08,其中:|A|表示A中分詞的個(gè)數(shù),為8;|B|=7。遞歸的字段匹配算法使用典型文本字段的遞歸結(jié)構(gòu),基本的情況是如果A和B是相同的字符串或一個(gè)是另一個(gè)的縮寫(xiě),匹配
10、度就是10,否則是00。每一個(gè)A的子字符串與B的子字符串進(jìn)行匹配,記錄子字符串匹配得分最高的情形。A和B的匹配度計(jì)算如公式(2)所示。文獻(xiàn)[18]-[20]對(duì)這兩種算法思想進(jìn)行了詳細(xì)的描述,并用實(shí)驗(yàn)對(duì)它們的性能進(jìn)行了驗(yàn)證。match(A,B)=1|A|∑|A|i=1max|B|j=1match(Ai,Bj)(2)Smith和Waterman在1981年提出了著名的Smith-Waterman算法[21],這是一種動(dòng)態(tài)編程的方法。引入間隙
11、或空位(Gap)以及罰值(Penalty)的概念,確定兩個(gè)字符串的匹配程度。文獻(xiàn)[19]介紹了一種將遞歸的字段匹配算法與Smith-Waterman算法相結(jié)合的改進(jìn)的Smith-Waterman算法(R-S-W),該算法既能識(shí)別拼寫(xiě)錯(cuò)誤,又能識(shí)別子串的顛倒和縮寫(xiě)。文獻(xiàn)[22]和[23]對(duì)Smith-Waterman算法進(jìn)行了改進(jìn),分別加入了擴(kuò)大的遞歸變量和并行處理的概念,極大地提高了運(yùn)行效率。文獻(xiàn)[24]將Smith-Waterman算
12、法與編輯距離(Levenshtein距離)結(jié)合來(lái)處理實(shí)際檢測(cè)問(wèn)題,可以將檢測(cè)誤識(shí)別率從556%降低到348%,極大地提高了檢測(cè)準(zhǔn)確度。其中矩陣值范圍Sij定義的關(guān)系式如下所示:Sij=Si-1,j-1+1,ifA(i)=B(j)max(0,Si-1,j-1,Si,j-1-1,Si-1,j-1-1),otherwise(3)基于以上的算法都無(wú)法直接應(yīng)用在中文中,文獻(xiàn)[19]提出基于編輯距離的中文縮寫(xiě)發(fā)現(xiàn)算法,文獻(xiàn)[20]給出了一個(gè)中文字段
13、匹配框架,描述了簡(jiǎn)單中文字段匹配算法、遞歸的中文字段匹配算法、漢語(yǔ)同音字字段匹配算法三種中文字符型字段匹配算法。常用字段匹配算法的比較情況,如表2所示:表2常用字段匹配算法的比較算法時(shí)間復(fù)雜度優(yōu)點(diǎn)缺點(diǎn)基本的字段匹配算法[7,18-20]O(nlogn),n是兩個(gè)字段中原子字符串的數(shù)目的最大值算法直觀,處理速度較快不能處理不是前綴的縮寫(xiě)情況,也不能應(yīng)用有關(guān)子字段排序的信息遞歸的字段匹配算法[7,18-20]O(n2),n是子串的個(gè)數(shù)算法簡(jiǎn)
14、單直觀,能處理子串順序顛倒及縮寫(xiě)等的匹配情況。時(shí)間復(fù)雜度較高,與具體的應(yīng)用領(lǐng)域密切相關(guān),匹配規(guī)則復(fù)雜,效率較低,此外還不能處理包含錯(cuò)誤的字符串Smith-Waterman算法[7,21]O(mn),m、n為參與比較的兩個(gè)字符串的長(zhǎng)度不依賴領(lǐng)域知識(shí),可以識(shí)別字符串縮寫(xiě)、字符串拼寫(xiě)錯(cuò)誤的情形不能處理子串順序顛倒的情況改進(jìn)的Smith-Waterman算法(R-S-W)[19]O(mnmax(m,n)),m、n為參與比較的兩個(gè)字符串的
15、長(zhǎng)度既能識(shí)別拼寫(xiě)錯(cuò)誤,又能識(shí)別子串的顛倒和縮寫(xiě)無(wú)法直接應(yīng)用于中文中基于編輯距離的縮寫(xiě)發(fā)現(xiàn)算法[19]—可以發(fā)現(xiàn)所有可能的縮寫(xiě)模式為了提高準(zhǔn)確性需要在專業(yè)領(lǐng)域內(nèi)應(yīng)用啟發(fā)式規(guī)則或知識(shí)庫(kù)來(lái)選擇真正的縮寫(xiě)形式32編輯距離算法編輯距離是用來(lái)計(jì)算從原串(s)轉(zhuǎn)換到目標(biāo)串(t)所需要的最少的插入、刪除和替換的數(shù)目,首先由俄國(guó)科學(xué)家Levenshtein在1965年提出,故又叫Levenshtein距離[25]。如圖1(a)顯示了“愛(ài)看期刊”和“喜歡看
16、雜志”之間的編輯距離為4。圖1編輯距離與改進(jìn)編輯距離的比較Monge等使用一種可調(diào)節(jié)的編輯距離計(jì)算方法來(lái)識(shí)別重復(fù)記錄[26]。文獻(xiàn)[27]提出一種應(yīng)用子串進(jìn)行相似度計(jì)量的編輯距離方法。文獻(xiàn)[28]在文獻(xiàn)[25]的理論基礎(chǔ)上提出一種基于NFA(NondeterministicFinitestateAutomation)的編輯距離方法。將匹配字符串看作是一個(gè)查找樹(shù),通過(guò)建立一個(gè)查找樹(shù)索引,從而有效地提高了識(shí)別準(zhǔn)確率。以發(fā)現(xiàn)100萬(wàn)條記錄中
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于CSSN算法的重復(fù)記錄檢測(cè)研究.pdf
- 刪除表中重復(fù)記錄
- 海量數(shù)據(jù)相似重復(fù)記錄檢測(cè)的研究.pdf
- 基于DBSCAN算法的相似重復(fù)記錄檢測(cè)方法研究.pdf
- 數(shù)據(jù)挖掘中的重復(fù)記錄檢測(cè)算法研究.pdf
- 基于CURE算法的相似重復(fù)記錄檢測(cè)技術(shù)研究.pdf
- 多數(shù)據(jù)源環(huán)境下重復(fù)記錄檢測(cè)問(wèn)題的研究.pdf
- 基于聚類樹(shù)的相似重復(fù)記錄檢測(cè)算法改進(jìn)研究.pdf
- 在sql中刪除重復(fù)記錄(多種方法)
- 相似重復(fù)記錄的數(shù)據(jù)清洗技術(shù)的研究.pdf
- 大數(shù)據(jù)環(huán)境下文本數(shù)據(jù)相似重復(fù)記錄檢測(cè)方法研究.pdf
- 在sql server中快速刪除重復(fù)記錄(多圖)
- 基于可變滑動(dòng)窗口的相似重復(fù)記錄檢測(cè)算法研究與設(shè)計(jì).pdf
- Deep Web數(shù)據(jù)源下重復(fù)記錄識(shí)別模型的研究.pdf
- 重復(fù)記錄清洗技術(shù)及其在信息管理系統(tǒng)中的應(yīng)用.pdf
- 基于規(guī)則的信息系統(tǒng)環(huán)境下重復(fù)記錄清理的實(shí)現(xiàn).pdf
- 基于相似重復(fù)記錄合并算法的蔬菜溯源展示系統(tǒng)研究與實(shí)現(xiàn).pdf
- 近似重復(fù)圖像檢測(cè)及其應(yīng)用.pdf
- 畢業(yè)論文重復(fù)率檢測(cè)答疑
- 重復(fù)代碼檢測(cè)方法及其應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論