版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、復雜網(wǎng)絡是對某些復雜系統(tǒng)的抽象和描述.任何一個網(wǎng)絡都可以看作是由一些節(jié)點按照某種方式連接在一起而構(gòu)成的一個系統(tǒng),其中節(jié)點代表真實系統(tǒng)中的個體,而邊表示個體間的相互聯(lián)系.現(xiàn)實世界中大量的復雜系統(tǒng)都可以看成是復雜網(wǎng)絡,它們廣泛存在于社會、經(jīng)濟、生物等眾多領(lǐng)域,例如萬維網(wǎng)和互聯(lián)網(wǎng)、生物網(wǎng)、科學家合作網(wǎng)、交通網(wǎng).近年來,國內(nèi)外網(wǎng)絡科學發(fā)展迅速,它已經(jīng)成為一門廣泛交叉的科學,為眾多領(lǐng)域的復雜系統(tǒng)研究提供了新思想和新手段.
實際網(wǎng)絡的
2、圖表示方法可以追溯到18世紀偉大的數(shù)學家歐拉對著名的“Konigsberg七橋問題”的研究.該研究開辟了數(shù)學的一個分支-圖論.很長一段時間內(nèi)圖論并未得到很大的發(fā)展,直到1960年由匈牙利數(shù)學家Erd(o)s和Rényi建立了ER隨機圖[15]:假設(shè)圖中有N個節(jié)點,每對節(jié)點之間以概率p連接,則約有pN(N-1)/2條邊,這樣就構(gòu)成了一個ER模型.研究發(fā)現(xiàn)隨機圖的許多性質(zhì)都是突然涌現(xiàn)的,也就是說,對于任一給定的概率p,要么幾乎每一個圖都具有
3、某個性質(zhì),要么幾乎每一個圖都不具有該性質(zhì).在20世紀的后40年里,隨機圖理論一直是人們研究復雜網(wǎng)絡結(jié)構(gòu)的基本理論.由于大多數(shù)實際的復雜網(wǎng)絡并不是隨機的,因而ER模型作為復雜網(wǎng)絡的基本模型,無疑存在較大缺陷.因此人們不斷對ER模型進行改進以使其更接近于真實網(wǎng)絡.
幾乎與此同時,人們還開展了對“小世界”效應的實驗研究.社會心理學家 Milgram曾經(jīng)做過一個著名的實驗,實驗要求參與者把一封信通過熟人傳送給指定的某個人,借此探明
4、熟人關(guān)系網(wǎng)絡中路徑長度的分布.雖然實驗中大多數(shù)信被丟棄了,但是仍有四分之一的信被送達目標人.根據(jù)最終到達目標者手中的信件的統(tǒng)計分析發(fā)現(xiàn),從一個志愿者到目標對象的平均距離為6,這就是著名的“六度分離”推斷.實驗結(jié)果在某種程度上反映了人際關(guān)系的“小世界”特性.1998年Watts和Strogatz將小世界模型引入到了復雜網(wǎng)絡的實際研究當中,建立了WS小世界網(wǎng)絡模型,以描述從完全規(guī)則網(wǎng)絡到完全隨機網(wǎng)絡的轉(zhuǎn)變.稍后Newman和Watts對 W
5、S模型進行了改進,建立了NW小世界網(wǎng)絡模型[20].WS小世界模型和 NW小世界模型本質(zhì)上是一樣的,它們都反映了實際復雜網(wǎng)絡的一個性質(zhì):大部分節(jié)點只與它們的鄰近節(jié)點相連,同時某些節(jié)點也可以與其非鄰近節(jié)點直接相連.WS模型和NW模型的度分布近似為Poisson分布:
p(k)∝λk/k! e-λ,
其中λ>0為參數(shù),p(k)為網(wǎng)絡中隨機選取一個節(jié)點其度恰好為k的概率.然而近幾年的大量研究表明,許多實際網(wǎng)絡的度分
6、布明顯地不同于 Poisson分布,而是更接近冪律分布:
p(k)∝ k-γ,
其中γ為正常數(shù).由于冪律分布沒有明顯的特征長度,該類網(wǎng)絡又被稱為無標度網(wǎng)絡.為了解釋冪律分布產(chǎn)生的機理,1999年Barabási和Albert建立了 BA無標度網(wǎng)絡模型[21].研究發(fā)現(xiàn)網(wǎng)絡規(guī)模的不斷增加和網(wǎng)絡中存在優(yōu)先連接導致了網(wǎng)絡的度分布服從冪律分布,并且存在少量度相對很高的節(jié)點,但絕大多數(shù)節(jié)點的度相對很低(即存在“胖尾”)
7、.另外,研究表明等級組織、聚合和節(jié)點的重建、拷貝節(jié)點也可以導致網(wǎng)絡具有無標度特性.
語言是語言學、心理學、生物學等領(lǐng)域共同研究的對象,是人類文明的結(jié)晶,是一個經(jīng)過漫長演化而來的復雜系統(tǒng).Solé認為語言在各個層次上都體現(xiàn)了復雜網(wǎng)絡的性質(zhì),包括語音、句法和語義.國內(nèi)外已經(jīng)在詞同現(xiàn)網(wǎng)絡、句法網(wǎng)絡、語義網(wǎng)絡等方面開展了相應的研究.
英語網(wǎng)絡的研究已經(jīng)取得了非常豐碩的成果.例如2001年Cancho和Solé在規(guī)模為
8、107個詞的英語國家語料庫的基礎(chǔ)上建立了兩個詞同現(xiàn)網(wǎng)絡,研究發(fā)現(xiàn)兩個網(wǎng)絡都具有小世界特性和無標度特性,并且在每個網(wǎng)絡的度分布中都存在兩個冪律指數(shù)1.5和2.7.2002年Motter和Moura等人基于在線英語詞典,該詞典含有3000多個概念,根據(jù)單詞之間概念的相似性構(gòu)建了英語的概念網(wǎng)[31].該網(wǎng)絡也具有小世界特性和無標度特性.2002年Sigman等人基于Wordnet上規(guī)模為66025個名詞之間的語義關(guān)系,例如反義詞,建立了英語的
9、語義網(wǎng),研究發(fā)現(xiàn)該網(wǎng)絡具有小世界特性和無標度特性.
漢語語言網(wǎng)絡的研究已取得一些研究成果.韋洛霞等人根據(jù)一個基本詞語集,構(gòu)造了詞法網(wǎng)絡(如果兩個詞語包含同一個漢字,則認為其間存在連接,例如“法治”和“法網(wǎng)”).2006年唐璐等人在兩個大型網(wǎng)絡HowNet和WordNet的基礎(chǔ)上,構(gòu)建了兩個語義網(wǎng)絡[35].2007年劉知遠等人在《人民日報》(1998年上半年)1300萬字左右的人工分詞語料庫和國語委5000萬字左右的人工分
10、詞語料庫的基礎(chǔ)上,建立了四個詞同現(xiàn)網(wǎng)絡[36].2008年周水庚等人基于大型語料庫 PFR1.0建立了兩個詞同現(xiàn)網(wǎng)絡.研究發(fā)現(xiàn)上述網(wǎng)絡都具有小世界特性和無標度特性.
近年來,人們對其它語言網(wǎng)絡也展開了相應的研究.例如2004年Cancho等人基于捷克語、德語、羅馬尼亞語構(gòu)建了句法網(wǎng),研究發(fā)現(xiàn)該網(wǎng)絡也具有小世界特性和無標度特性.2006年Marko(s)ová等人根據(jù)互聯(lián)網(wǎng)上的大量文本建立了斯洛伐克語的兩個詞同現(xiàn)網(wǎng)絡,研究發(fā)
11、現(xiàn)它們都具有小世界特性.
中文中的句子是由字和詞構(gòu)成的,而英文中的句子卻是由詞構(gòu)成.因而與詞同現(xiàn)網(wǎng)絡的構(gòu)造方式一樣,我們也可以建立中文字同現(xiàn)網(wǎng)絡.然而除了我們的會議論文[40]之外,沒有其它文獻對中文字網(wǎng)絡進行過研究.另外,在現(xiàn)有的文獻中,前人的工作是將大量文章合在一起建立一個網(wǎng)絡,而這些文章來源于數(shù)據(jù)庫、WordNet、英語在線詞典等等.每篇中文文章可以建立一個字同現(xiàn)網(wǎng)絡和一個詞同現(xiàn)網(wǎng)絡,每篇英文文章可以建立一個詞同現(xiàn)網(wǎng)
12、絡.那么每篇文章建立的網(wǎng)絡是否仍然具有小世界特性和無標度特性呢?另外,通過對兩種或多種語言所對應網(wǎng)絡的統(tǒng)計參數(shù)的比較,能否得到一些有用的信息呢?為了回答這些問題,我們在53篇現(xiàn)代中文文章(包括四類文體:散文、小說、科普和新聞),以及每種類型文章合一后得到的4篇文章的基礎(chǔ)上建立了114個字、詞同現(xiàn)網(wǎng)絡.研究發(fā)現(xiàn)中文字同現(xiàn)網(wǎng)絡與詞同現(xiàn)網(wǎng)絡在結(jié)構(gòu)上是等價的,也就是說,它們都同時具有小世界特性和無標度特性.
目前正在使用的主要語言
13、有6800多種,其中漢語和英語是使用最多的兩種語言.那么從復雜網(wǎng)絡的角度來看中、英文之間有何異同?在同種語言下四類文章:散文、小說、科普和新聞之間又有何異同?中華民族歷史悠久,文化源遠流長.從復雜網(wǎng)絡的角度來看,不同時期的漢語之間有何相同之處和不同之處呢?在現(xiàn)有的文獻中,我們還沒有發(fā)現(xiàn)這方面的研究成果.
在語言演化網(wǎng)絡模型方面,2001年Dorogovtsev和Mendes為了對文獻中的度分布進行理論分析,通過在 BA模型
14、的基礎(chǔ)上增加了第t時刻在已有節(jié)點中產(chǎn)生 ct(c為常數(shù))條新邊的方式建立了DM模型,得到核心詞典所在區(qū)域的冪律指數(shù)為3,而其它詞所在區(qū)域的冪律指數(shù)為1.5[42].2007年 Marko(s)ová在DM模型的基礎(chǔ)上增加了改變邊來更好的模擬了文獻[30]中的度分布.2008年Yu等人根據(jù)中文字或短語之間的包含關(guān)系構(gòu)建了網(wǎng)絡,并據(jù)此建立了只包括增長和擇優(yōu)的網(wǎng)絡模型[44].中華文化經(jīng)歷了5000多年的漫長發(fā)展變化.如何建立網(wǎng)絡模型來刻畫漢
15、語的演化呢?據(jù)我們所知,到目前為止,除了文獻[42,43,44]之外,我們還沒有發(fā)現(xiàn)其它用來分析語言演化特別是漢語演化的網(wǎng)絡模型.
本文分為四章,分別對中、英文之間的異同,中國不同時期的漢語之間的異同進行了研究.最后,依據(jù)漢語發(fā)展變化的特點建立了語言演化網(wǎng)絡模型,并且給出了漢語不同時期單篇文章所對應字同現(xiàn)網(wǎng)絡度分布圖的計算機仿真.
在第一章中,我們主要介紹了復雜網(wǎng)絡中幾個基本概念,包括平均最短路徑、聚類系數(shù)、
16、度分布等.
在第二章中,我們從復雜網(wǎng)絡的角度研究了中、英文之間的異同,以及在同種語言下四類文章:散文、小說、科普和新聞之間的異同.我們分別選取了現(xiàn)代中、英文文章各200篇,針對每篇中文文章建立了一個字同現(xiàn)網(wǎng)絡和一個詞同現(xiàn)網(wǎng)絡,針對每篇英文文章建立了一個詞同現(xiàn)網(wǎng)絡.研究結(jié)果表明,所有的網(wǎng)絡都具有小世界特性,并且絕大部分網(wǎng)絡都具有無標度特性;在某種意義下英文的表述比中文更簡潔;中文中散文和科普具有較多的共性,而英文中卻是新聞和
17、科普具有較多的共性.
在第三章中,我們從復雜網(wǎng)絡的角度研究了中國不同歷史時期文章的異同.我們基于春秋戰(zhàn)國、兩漢、三國、兩晉、南北朝、唐、宋、元、明、清、現(xiàn)代共11個時期各50篇散文,建立了550個字同現(xiàn)網(wǎng)絡,每個時期的50篇散文合在一起建立一個大的字同現(xiàn)網(wǎng)絡,共建立了561個字同現(xiàn)網(wǎng)絡.研究發(fā)現(xiàn)基于單篇文章建立的網(wǎng)絡中99.6%的網(wǎng)絡具有無標度特性,95.0%的網(wǎng)絡具有小世界特性.這為建立語言演化網(wǎng)絡模型來研究漢語的發(fā)展變
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 網(wǎng)絡語言的社會語言學研究.pdf
- 網(wǎng)絡語言的文化研究.pdf
- 網(wǎng)絡語言生成機制研究.pdf
- 網(wǎng)絡語言規(guī)范問題研究.pdf
- 網(wǎng)絡語言管理策略研究.pdf
- 網(wǎng)絡征婚語言的社會語言學研究.pdf
- 網(wǎng)絡語言調(diào)查研究.pdf
- 網(wǎng)絡語言探析.pdf
- 網(wǎng)絡時代的新“語言”——網(wǎng)絡語言現(xiàn)象分析.pdf
- 調(diào)侃類網(wǎng)絡語言的研究.pdf
- 網(wǎng)絡語言新修辭現(xiàn)象研究.pdf
- 俄語網(wǎng)絡語言的修辭研究.pdf
- 網(wǎng)絡語言的生成機制研究.pdf
- 網(wǎng)絡語言隱喻的認知研究.pdf
- 網(wǎng)絡語言模糊性的交際語言學研究.pdf
- 網(wǎng)絡語言影響網(wǎng)絡思維的表征與機理研究——基于漢語語境下的網(wǎng)絡語言研究.pdf
- 網(wǎng)絡語言,一種新的語言媒介——網(wǎng)絡語言的語言特點簡析.pdf
- 論網(wǎng)絡語言中的語言污染.pdf
- 網(wǎng)絡語言——語言作為符號的變異.pdf
- BBS網(wǎng)絡語言的認知研究.pdf
評論
0/150
提交評論