面向詞典編撰的詞匯聚類研究_第1頁
已閱讀1頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、1分類詞典編撰的領域詞語聚類實現(xiàn)分類詞典編撰的領域詞語聚類實現(xiàn)劉華1中文提要:中文提要:針對分類詞典中學科詞條的獲取和選擇問題,我們利用文本分類和聚類中特征提取的方法進行詞語聚類,從而達到輔助詞典編撰的目的。關鍵詞:關鍵詞:分類詞典文本分類特征提取詞語聚類StudiesonWdsClusteringinlexicographyLiuHua1,2ZhouLingYan1ZhangPu21(CollegeofChineseLanguageC

2、ultureofJinanUniversity,Guangzhou,510000)2(BeijingLanguageUniversity,Beijing,100000)Email:liuhua0461@Abstract:FobtainingingsubjectlemmaauxiliarytobuildingclassifieddictionarythispaperpresentsanalgithmthatclustersfieldWds

3、inlargescaleclassedcpusbyacterextractionintextclassing.Keywds:LexicographyTextClassingacterExtractionWdsClustering詞典或詞庫建設是一項重要的基礎性工程,詞典編撰工作量巨大、枯燥繁瑣。在信息化高度發(fā)展的今天,如何利用高科技手段輔助詞典編撰已成為一項非常有意義的課題。針對分類詞典編撰中學科詞條(每一條目的條頭,可能是詞或短語,本

4、文通稱為詞條,下同)的獲取和選擇問題,我們利用文本分類和聚類中特征提取的方法進行詞語聚類,從而達到輔助詞典編撰的目的。1.1.分類詞典編撰的兩個關鍵問題分類詞典編撰的兩個關鍵問題現(xiàn)代詞典按其收錄內(nèi)容和用途可分為:語文詞典、綜合性詞典和??菩栽~典。其中,綜合性詞典和??菩栽~典常常以學科(或題材)為綱來進行組織編排[1]。綜合性詞典收錄內(nèi)容廣泛,涉及各個領域,便于查找最基本的知識和資料,往往只選擇重要的或查檢率較高的詞目收錄,而在涉及各學科

5、體系的深度和收詞的平衡及完整性方面有它薄弱的一面。這樣在查檢某一學科、專業(yè)的知識時則主要利用??圃~典。人類很早就有將詞匯按題材分類編纂的傳統(tǒng),距今2000多年前編纂的《爾雅》是最早的分類詞典雛形。近現(xiàn)代,分類詞典的出版空前繁榮,出現(xiàn)了很多??圃~典,基本上涵蓋了各學科。按學科(或題材)編撰詞典的兩個關鍵問題在于學科詞條的獲取和選擇。1.2.11.2.1學科詞條的獲取學科詞條的獲取以往的詞條通常是由學科領域的專家利用其學科經(jīng)驗來提供,這一方

6、面保證了學科詞條的準確性,但另一方面又帶來了一些問題。如個人主觀性太大,難以保證詞條的一致性,特別是對于那些新出現(xiàn)的沒有定論的學科術語更是如此;個人或幾個人的力量畢竟有限,很難保證詞條的學科涵蓋性,特別是在編撰綜合性詞典時,如何調(diào)動大規(guī)模的領域專家協(xié)同工作,更是一個大問題;信息化時代的到來,特別是網(wǎng)絡的發(fā)展,使得知識更新非???,單純依靠專家的1劉華,男,02級博士生,研究方向:計算語言學,智能檢索,email:liuha0461@3中出

7、現(xiàn)的頻度越高,在其它文檔集(如“經(jīng)濟”、“軍事”……,我們稱之為背景語料,作對比用的)中出現(xiàn)的頻度越低,說明它在區(qū)分該文檔集的內(nèi)容屬性(“體育”類)方面的能力越強。因此,領域特征詞語的提取實際上是通過計算詞語在不同領域語料中的分布情況來實現(xiàn)的。根據(jù)此原理,我們可以通過計算詞語的TFIDF值來進行詞語的領域(話題)聚類。2.32.3特征領域聚類實現(xiàn)特征領域聚類實現(xiàn)我們依照上面的方法流程進行了特征抽取和領域聚類。訓練用的分類語料庫約60萬個

8、XML文件,6億字,時間跨度為三年(02、03、04),文件標注了語料的標題、關鍵詞、類別(詳細標明到細致的主題,如“經(jīng)濟證券債券”,共244個)、時間、段落等屬性。具體領域(只列舉了大類)和文件數(shù)分布如下:類別文件數(shù)類別文件數(shù)時政新聞_國際59130旅游18471時政新聞_國內(nèi)119695文藝14248時政新聞_軍事21743游戲22843時政新聞_社會42559汽車21745經(jīng)濟40115教育24405科技53126房產(chǎn)19573體

9、育96120生活男女19382娛樂23905總計597060具體步驟如下:Step1:雙向最大切分。切分底表對特征提取至關重要,如果需要提取的特征詞不在底表中,則無法提取出該特征詞,我們的底表包含三十二萬詞條,含領域詞語二十五萬。Step2:統(tǒng)計詞次。統(tǒng)計時根據(jù)位置加權,加權時文本長度會對加權因子產(chǎn)生影響。對關鍵詞、標題加權時,應該動態(tài)加權,即按文章正文詞數(shù)動態(tài)調(diào)整加權系數(shù)。標題加權底數(shù)為2,關鍵詞加權底數(shù)為3,正文詞數(shù)按200字分級,

10、每增加一級,在原來系數(shù)上相應加1。Step3:權重計算。按照2、2節(jié)中的公式計算每個詞在類中的權重,n(n=1)參數(shù)主要用來調(diào)節(jié)詞頻的影響,當n取值小時,傾向于詞頻大的詞;當n取值大時,則詞頻的影響減弱,傾向于詞頻小的詞。Step4:特征選擇。通過設定閾值來確定不同文檔類所對應的特征向量[4]。3.3.領域聚類結果分析領域聚類結果分析上文(第1節(jié))列舉了分類詞典編撰中兩個關鍵性的問題,其中第一個問題實際上是個分類問題,即將詞語歸入到其所

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論