版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、12005年度漢語詞匯統(tǒng)計的分析與思考年度漢語詞匯統(tǒng)計的分析與思考1蘇新春楊爾弘《廈門大學(xué)學(xué)報》2006年第6期提要“中國語言生活狀況報告(2005)”是迄今為止語料量最大,詞種數(shù)最多,發(fā)布單位最為權(quán)威的調(diào)查數(shù)據(jù)。這是一份反映了新聞?wù)Z言真實面貌的言語詞性質(zhì)的詞表;語文詞是社會流通詞語總匯中的主體,它有著高頻性、高分布率、短小化的特點;從高頻詞身上可以清晰地觀察到社會發(fā)展社會文化。關(guān)鍵詞2005年漢語詞匯計量研究教育部、國家語委2006年
2、5月22日在北京舉行新聞發(fā)布會,首次以“中國語言生活綠皮書”的形式發(fā)布了“中國語言生活狀況報告(2005)”。2調(diào)查報告分上下兩卷,上卷為不同領(lǐng)域的語言面貌及語言熱點問題,下卷為對報刊語言、有聲語言、網(wǎng)絡(luò)語言的統(tǒng)計數(shù)據(jù)。語言生活狀況報告的公布,受到社會的廣泛關(guān)注,出席發(fā)布會的新聞媒體達(dá)60多家。短短兩個月,覆蓋總語料80%的581個漢字就編成了字典出版。3“中國語言生活狀況報告(2005)”下卷的數(shù)據(jù)由“國家語言資源監(jiān)測與研究中心”的“
3、平面媒體”“網(wǎng)絡(luò)媒體”“有聲媒體”三個分中心采集。統(tǒng)計語料來自全國15家主流報紙、6家新聞網(wǎng)站、13家電視臺、9家廣播電臺的語料。4總字符數(shù)達(dá)909429700個,來自報刊、網(wǎng)站、電臺電視臺的三類語料分別占到總數(shù)的59.3%、37.3%、3.4%。語料單位共計892034個文本文件。對這份語料用分詞軟件進(jìn)行切分,得到總字符串為489240995詞次,減去標(biāo)點、符號、純西文分詞等字符串后,得到416090995詞次,將其概括為詞種,為16
4、51749個。整個20世紀(jì),正式公布的關(guān)于漢語、漢字的各種統(tǒng)計,從來沒有過如此大的規(guī)模。1986年出版的《現(xiàn)代漢語頻率詞典》,是我國第一部嚴(yán)格統(tǒng)計意義上的詞表,統(tǒng)計語料是180萬字,詞種數(shù)31159條5。1990年出版的《現(xiàn)代漢語常用詞詞頻詞典》,統(tǒng)計語料是2500萬字,詞種數(shù)10萬條6。國家語委研制的《現(xiàn)代漢語通用語料庫》,容量作者簡介:蘇新春(1953)廈門大學(xué)中文系教授,江西南昌人。楊爾弘(1965)北京語言大學(xué)語言研究所教授,河
5、北保寶人。1本次漢語詞匯調(diào)查是“中國語言生活狀況報告(2005)”的一部分內(nèi)容。楊爾弘承擔(dān)了數(shù)據(jù)匯總工作,蘇新春承擔(dān)了常用詞的分析工作。蘇新春主持“國家語委十五科研規(guī)劃”的項目“現(xiàn)代漢語通用詞量及分級”研究,本文即從“通用詞理論”角度進(jìn)行觀察。本文曾在“第二屆國際漢語詞匯研討會暨第六屆全國漢語詞匯學(xué)研討會”大會報告。2《中國語言綠皮書中國語言生活狀況報告(2005)》由商務(wù)印書館出版,2006年10月。3《常用漢字581》,語文出版社,
6、2006年7月。415家報紙為《北京青年報》、《北京日報》、《北京晚報》、《法制日報》、《光明日報》、《廣州日報》、《華西都市報》、《環(huán)球時報》、《今晚報》、《南方周末》、《人民日報》、《深圳特區(qū)報》、《羊城晚報》、《揚子晚報》、《中國青年報》。6家主要網(wǎng)站為新華網(wǎng)、人民網(wǎng)、中華網(wǎng)、中國新聞網(wǎng)、新浪網(wǎng)、網(wǎng)易。13家電視臺為中央電視臺、北京電視臺、上海電視臺、上海東方電視臺、鳳凰衛(wèi)視、廣東電視臺、天津電視臺、安徽電視臺、山東電視臺、長沙電
7、視臺、重慶電視臺、東方衛(wèi)視、廣州電視臺,9家廣播電臺為中央人民廣播電臺、北京人民廣播電臺、北京交通臺、海峽之聲廣播電臺、深圳廣播電臺、廣東新聞臺、天津人民廣播電臺、上海東方廣播電臺和中山廣播臺等9家廣播電臺。5見《現(xiàn)代漢語頻率詞典》,北京語言學(xué)院出版社,1986年。XI。得到總詞次131萬條,常用詞8548條。6劉源《現(xiàn)代漢語常用詞詞頻詞典》,宇航出版社,1990。得到詞種十萬條,書中分布的是一萬條常3(12426),ALOC(1060
8、6)8??墒瞧渌?4種,頻次在1000次以上的只有兩種,100至1000次的有4種,100次以下的有8種。這14種標(biāo)注的詞頻合起來也只占120萬次總頻的0.75%??梢娪炚`大都出現(xiàn)在低頻范圍。那些絕對低頻,或是相對低頻,從概率統(tǒng)計的角度來看,它們對整體數(shù)據(jù)性質(zhì)的影響微乎其微,并不會妨礙我們的分析,不會妨礙我們對詞的通常的意義、用法、功能的認(rèn)識。二、一份反映新聞?wù)Z言真實狀況的言語性質(zhì)的詞表二、一份反映新聞?wù)Z言真實狀況的言語性質(zhì)的詞表166
9、萬條詞語包含著怎樣的詞語,9是需要我們首先弄明白的問題。根據(jù)標(biāo)注,數(shù)量最多的前四種是人名613046條、組織機構(gòu)名594913條、地名238989條、時間名99192條,分別占總數(shù)的36.9%、14.5%、35.7%、6%,占總詞種數(shù)的93%。這四類都是典型的專名,屬于言語詞的范疇。當(dāng)然,里面有些很高頻的詞應(yīng)當(dāng)納入語言詞的范圍,但它們在該類詞中占的比例很低,不會影響到該類詞的規(guī)模。如9.9萬條時間詞,詞頻為1次的就有5萬條,詞頻為2次的
10、有1.3萬條,如“十萬點”、“十一秒”、“10月29日14時55分”等。在詞頻為1萬次以上的134條高頻時間詞中,“目前、現(xiàn)在、今年、今日、昨天、今天、現(xiàn)代、去年、當(dāng)時、下午、昨日、未來、上午”等可屬“語言詞”,而“2004年、2005年、一年、10年、一個月、5年、3年”等則屬“言語詞”。時間詞中絕大多數(shù)都是對具體時間單位的指稱,屬言語詞。用這樣的方法可以對人名、組織機構(gòu)名、地名進(jìn)行同樣的觀察。如“人名”中,詞頻在一千次以上的同姓者中
11、出現(xiàn)了174個姓氏。一萬次以上的有6個姓氏,“王”姓17711人,“李”姓17100人,“張”姓15431人,“陳”姓12791人,“劉”姓12385人,“馬”姓10296人。實際語言生活中,人名是一個天文數(shù)字。13億人就有13億個名字,假設(shè)平均每個名字重復(fù)10遍,不相同的名字就有1300萬個。現(xiàn)在可以來得出結(jié)論了,2005年度漢語詞匯統(tǒng)計所得到的詞表,是一份以言語詞為主體的反映了語言使用真實狀況的詞表?!把哉Z詞”,就是指那些專指性強、
12、重復(fù)率低、使用范圍狹、穩(wěn)定性差的詞語。這與“語言詞”的通用性強、復(fù)現(xiàn)率高、使用范圍廣、穩(wěn)定性好的特點正好相反。這里所說的“語言真實狀況”更準(zhǔn)確地說應(yīng)該是新聞?wù)Z言的使用。新聞的構(gòu)成要素是“人”“事”“時間”“地點”,四者缺一不可。新聞要“新”,因此,一條新聞報道,總會帶來或新的人,或新的事,或新的時間,或新的地點。因此,“人名”“地名”“組織機構(gòu)名”“時間名”在詞語總表中大量出現(xiàn),又是必然的了。認(rèn)識清楚了2005年度漢語詞語統(tǒng)計表的言語詞
13、性質(zhì),對于我們準(zhǔn)確地分析、挖掘、利用這份寶貴的詞匯統(tǒng)計材料有著重要意義。上世紀(jì)50年代以來,漢語詞語表的研制一直沒有停止過。限于歷史原因和技術(shù)條件,前期主要是對常用詞詞表的研制。10從80年代開始,開始有了全詞表的研制。在中文信息處理界,詞切分、詞標(biāo)注的軟件一般都帶有大容量的詞表,多在810萬條之間。雖然它們的收詞原則各不相同,吐納的嚴(yán)格程度也不一樣,但都希望有相當(dāng)?shù)母采w面。孫茂松主持的“中文信息處理用詞表”,收詞規(guī)模在11萬條左右,目
14、前已經(jīng)完成審定工作。這些工作主要是由中文信息處理界完成的,也主要服務(wù)對象也是自然語言處理。在語言學(xué)界,面向人,服務(wù)于語言教學(xué)等應(yīng)用領(lǐng)域的研制工作也在進(jìn)行著?!冬F(xiàn)代漢語頻率詞典》的8548條,和“對外漢語8表示地名的省略9上面說到調(diào)查結(jié)果的總詞種數(shù)是1651749個。這是對詞性標(biāo)注作了歸并處理的結(jié)果,即在多詞性的詞中,歸并為一個詞性,以高頻者作代表。為了更好地說明問題,本文下面使用的數(shù)據(jù)是未作詞性歸并的數(shù)據(jù)。它們來自平面媒體的語料(占59
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 漢語詞匯統(tǒng)計研究
- 漢語詞匯與文化
- 漢語詞匯理據(jù)研究與對外漢語詞匯教學(xué).pdf
- 漢譯佛經(jīng)與漢語詞匯
- 淺談日語詞匯對漢語詞匯的影響
- 漢語詞匯的分類
- 小學(xué)漢語詞匯
- 漢語詞匯結(jié)構(gòu)的具象與辯證
- 隱喻理論與漢語詞匯的概念隱喻分析.pdf
- 漢語詞匯結(jié)構(gòu)的具象與辯證
- 漢語詞匯學(xué)習(xí)應(yīng)用軟件對比分析及思考.pdf
- 大規(guī)模培訓(xùn)黨員干部的經(jīng)驗與思考
- 漢語詞匯評價系統(tǒng)分析.pdf
- 2005年度科技統(tǒng)計報表填寫及系統(tǒng)使用說明
- 2005年度質(zhì)量成本分析報告
- 臺灣漢語詞匯研究.pdf
- 漢語詞匯(孫常敘)
- 現(xiàn)代漢語詞匯習(xí)題
- 大規(guī)模漢語語義詞典構(gòu)建.pdf
- 2005年度教師培訓(xùn)計劃
評論
0/150
提交評論