2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩39頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、機(jī)器學(xué)習(xí)研究進(jìn)展,周志華,http://cs.nju.edu.cn/people/zhouzh/Email: zhouzh@nju.edu.cn,南京大學(xué)計算機(jī)軟件新技術(shù)國家重點實驗室,提綱,國際動向我們的一些工作,機(jī)器學(xué)習(xí)是人工智能的核心研究領(lǐng)域之一經(jīng)典定義:利用經(jīng)驗改善系統(tǒng)自身的性能隨著該領(lǐng)域的發(fā)展,主要做智能數(shù)據(jù)分析典型任務(wù):根據(jù)現(xiàn)有數(shù)據(jù)建立預(yù)測模型,機(jī)器學(xué)習(xí),美國航空航天局JPL實驗室的科學(xué)家在《Science》(20

2、01年9月)上撰文指出:機(jī)器學(xué)習(xí)對科學(xué)研究的整個過程正起到越來越大的支持作用,……,該領(lǐng)域在今后的若干年內(nèi)將取得穩(wěn)定而快速的發(fā)展,機(jī)器學(xué)習(xí)的重要性,美國航空航天局JPL實驗室的科學(xué)家在《Science》(2001年9月)上撰文指出:機(jī)器學(xué)習(xí)對科學(xué)研究的整個過程正起到越來越大的支持作用,……,該領(lǐng)域在今后的若干年內(nèi)將取得穩(wěn)定而快速的發(fā)展,機(jī)器學(xué)習(xí)的重要性,,入侵檢測:是否是入侵?是何種入侵?,如何檢測?歷史數(shù)據(jù):以往的正常訪問模式及其

3、表現(xiàn)、以往的入侵模式及其表現(xiàn)……對當(dāng)前訪問模式分類,這是一個典型的機(jī)器學(xué)習(xí)問題常用技術(shù):神經(jīng)網(wǎng)絡(luò) 決策樹支持向量機(jī) 貝葉斯分類器k近鄰 序列分析 聚類…… ……,,例1:網(wǎng)絡(luò)安全,常用技術(shù):神經(jīng)網(wǎng)絡(luò) 支持向量機(jī)隱馬爾可夫模型貝葉斯分類器 k近鄰決策樹 序列分析 聚類…… ……,,,,例2:生物信息學(xué),Google的成功,使得Interne

4、t 搜索引擎成為一個新興的產(chǎn)業(yè)不僅有眾多專營搜索引擎的公司出現(xiàn)(例如專門針對中文搜索的就有百度、慧聰?shù)龋?,而且Microsoft等巨頭也開始投入巨資進(jìn)行研發(fā)Google掘到的第一桶金,來源于其創(chuàng)始人Larry Page和Sergey Brin提出的PageRank算法機(jī)器學(xué)習(xí)技術(shù)正在支撐著各類搜索引擎,例3:搜索引擎,DARPA 2003年開始啟動PAL(Perceptive Assistant that

5、 Learns)計劃5年期,首期(1-1.5年)投資2千9百萬美元以機(jī)器學(xué)習(xí)為核心的計劃(涉及到AI的其他分支,如知識表示和推理、自然語言處理等);包含2個子計劃總目標(biāo):“is expected to yield new technology of significant value to the military, business, and academic sectors” “develop software that

6、will help decision-makers manage their complex worlds of multiple simultaneous tasks and unexpected events”,美國的PAL計劃,RADAR (Reflective Agents with Distributed Adaptive Reasoning),承擔(dān)單位為CMU, 首期7百萬美元目標(biāo):“the sy

7、stem will help busy managers to cope with time-consuming tasks” “RADAR must learn by interacting with its human master and by accepting explicit advice and instruction”,美國的PAL計劃: RADAR子計劃,CALO (Cognitive Agent

8、 that Learns and Observes), 承擔(dān)單位為SRI,首期2千2百萬美元除SRI外,這個子計劃的參加單位有20家:Boeing, CMU, Dejima Inc., Fetch Tech Inc., GATech, MIT, Oregon HSU, Stanford, SUNY-Stony Brook, UC Berkeley, UMass, UMich, UPenn, Rochester, USC,

9、 UT Austin, UW, Yale, …CALO無疑是PAL中更核心的部分,美國的PAL計劃: CALO子計劃(1),目標(biāo): “the name CALO was inspired by the Latin word ‘calonis’, which means ‘soldier’s assistant’”,“the CALO software, which will learn by working with and

10、being advised by its users, will handle a broad range of interrelated decision-making tasks … It will have the capability to engage in and carry out routine tasks, and to assist when the unexpected happens”,從CALO的目標(biāo)來看,DA

11、RPA已經(jīng)開始把機(jī)器學(xué)習(xí)技術(shù)的重要性放到了國家安全的角度來考慮,美國的PAL計劃: CALO子計劃(2),美國的PAL計劃: CALO子計劃(3),為什么要研究集成學(xué)習(xí)?,我們最近關(guān)于集成學(xué)習(xí)的一些工作,泛化能力是機(jī)器學(xué)習(xí)關(guān)注的一個根本問題 泛化能力(generalization ability)表征了學(xué)習(xí)系統(tǒng)對新事件的適用性 泛化能力越強(qiáng)越好 提高泛化能力是機(jī)器學(xué)習(xí)永遠(yuǎn)的追求,泛化能力,集成學(xué)習(xí)(Ensemble

12、 Learning)是一種機(jī)器學(xué)習(xí)范式,它使用多個學(xué)習(xí)器來解決同一個問題,,集成學(xué)習(xí),由于集成學(xué)習(xí)可以有效地提高學(xué)習(xí)系統(tǒng)的泛化能力,因此它成為國際機(jī)器學(xué)習(xí)界的研究熱點“當(dāng)前機(jī)器學(xué)習(xí)四大研究方向之首” [T.G. Dietterich, AIMag97],我們的一些工作,選擇性集成集成可理解性多示例集成應(yīng)用,既然多個學(xué)習(xí)器的集成比單個學(xué)習(xí)器更好,那么是不是學(xué)習(xí)器越多越好?,更多的個體意味著: 在預(yù)測時需要更大的計算開銷,因為要計

13、算更多的個體預(yù)測 更大的存儲開銷,因為有更多的個體需要保存,1. 選擇性集成,提出了選擇性集成(Selective Ensemble) 證明了 “Many Could be Better Than All” Theorem在有一組個體學(xué)習(xí)器可用時,從中選擇一部分進(jìn)行集成,可能比用所有個體學(xué)習(xí)器進(jìn)行集成更好,1. 選擇性集成 (con’t),Z.-H. Zhou, J. Wu, and W. Tang. Ensembling neu

14、ral networks: many could be better than all. Artificial Intelligence, 2002, 137(1-2): 239-263. 據(jù)ISI統(tǒng)計, 該文被引次數(shù)在2002年1月以來該刊發(fā)表的所有論文(共278篇)中排第4 Z.-H. Zhou, J.-X. Wu, Y. Jiang, and S.-F. Chen. Genetic algorithm based selecti

15、ve neural network ensemble. In: Proc. IJCAI'01, Seattle, WA, pp.797-802.,提出了GASEN算法顯示出選擇性集成理論的可操作性使用少得多的個體學(xué)習(xí)器,取得了比Bagging和Boosting更高的精度,1. 選擇性集成 (con’t),Z.-H. Zhou, J. Wu, and W. Tang. Ensembling neural networks: m

16、any could be better than all. Artificial Intelligence, 2002, 137(1-2): 239-263. 據(jù)ISI統(tǒng)計, 該文被引次數(shù)在2002年1月以來該刊發(fā)表的所有論文(共278篇)中排第4 Z.-H. Zhou, J.-X. Wu, Y. Jiang, and S.-F. Chen. Genetic algorithm based selective neural netwo

17、rk ensemble. In: Proc. IJCAI'01, Seattle, WA, pp.797-802.,選擇性集成思想的一般性:利用多個個體,并對個體進(jìn)行選擇,可以獲得更好的結(jié)果,選擇性集成的思想可以用到更多的領(lǐng)域中去選擇的基本原則:個體的效用高、差異大,1. 選擇性集成 (con’t),國際上的一些研究: 基于選擇性集成的時序預(yù)報 [S. Chiewchanwattana et al., ICONIP’02]

18、 GASEN的Grid實現(xiàn) [T.K. Vin et al., IEEE ICDFMA’05] 新的選擇性集成方法 [N. Garcia-Pedrajas, TEC’05] … …,1. 選擇性集成 (con’t),top 1% cited paper since 2000 -ISI “非常重要,非常新穎” (“very significant, very original”)

19、 – IJCAI’01 Review “優(yōu)秀論文” (“excellent paper”) – 《AIJ》 editor “最佳論文之一” (“one of the best papers” ) – 《IJCIA》 editor “了不起的是,該方法比以往著名的

20、集成方法性能更好,而且只用了較小的計算代價” (“It is remarkable that this strategy performs better than well-established ensembling approaches,…, at a much lower computational cost”) – C. Torras “開辟了廣闊的領(lǐng)

21、域” (“opens a wide field” ) – N. Garcia-Pedrajas 《IEEE Trans. EC》,1. 選擇性集成 (con’t),理想的學(xué)習(xí)系統(tǒng)強(qiáng)泛化能力好可理解性 (comprehensibility) 在很多應(yīng)用中,學(xué)習(xí)系統(tǒng)只是一種輔助手段,最終的決策還是需要由用戶來做,2. 集成可理解性,“增強(qiáng)集成可理解性是一個有待研究的問題” [T.G. Dietterich, AIMag97

22、],2. 集成可理解性 (con’t),提出了REFNE方法從功能分析的角度出發(fā)可以從集成中抽取符號規(guī)則,使得集成的功能可以由符號規(guī)則來描述,Z.-H. Zhou, Y. Jiang, and S.-F. Chen. Extracting symbolic rules from trained neural network ensembles. AI Communications, 2003, 16(1): 3-15.據(jù)ISI統(tǒng)

23、計, 該文被引次數(shù)在2003年1月以來該刊發(fā)表的所有論文(共67篇)中排第1,提出了二次學(xué)習(xí) (twice-learning)提出了C4.5Rule-PANE算法,Z.-H. Zhou and Y. Jiang. Medical diagnosis with C4.5 rule preceded by artificial neural network ensemble. IEEE Transactions on Informatio

24、n Technology in Biomedicine, 2003, 7(1): 37-42. 據(jù)ISI統(tǒng)計, 該文被引次數(shù)在2003年1月以來該刊發(fā)表的所有論文(共160篇)中排第5,2. 集成可理解性 (con’t),獲得: 強(qiáng)泛化能力 + 好可理解性,提出了NeC4.5算法從理論上分析了二次學(xué)習(xí)奏效的原因,推導(dǎo)出條件數(shù)據(jù)中包含噪音數(shù)據(jù)沒有完全表達(dá)目標(biāo)分布直接用L1學(xué)得結(jié)果的泛化能力顯著優(yōu)于用L2學(xué)得的結(jié)果,Z.-H.

25、 Zhou and Y. Jiang. NeC4.5: neural ensemble based C4.5. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(6): 770-773.,2. 集成可理解性 (con’t),,“總之,C4.5Rule-PANE應(yīng)被視為追求完美規(guī)則抽取技術(shù)這一圣杯的人的武器” (“In summary, C4.5 Rule-PANE

26、 should be viewed as yet another weapon in the armoury of those seeking the holy grail of a perfect rule extraction technique” )- M. Pennington’s thesis supervised by A.J.C. Sharkey,2. 集成可理解性 (con’t),Free C4.5Rule-PANE

27、package:http://cs.nju.edu.cn/people/zhouzh/zhouzh.files/publication/annex/C45Rule-PANE.htmFree NeC4.5 package:http://cs.nju.edu.cn/people/zhouzh/zhouzh.files/publication/annex/NeC45.htm,3. 多示例集成,三種機(jī)器學(xué)習(xí)框架: 監(jiān)督學(xué)習(xí)(superv

28、ised learning)所有訓(xùn)練樣本都有標(biāo)記(label) 非監(jiān)督學(xué)習(xí)(unsupervised learning)所有訓(xùn)練樣本都沒有標(biāo)記 強(qiáng)化學(xué)習(xí)(reinforcement learning)延遲標(biāo)記(延遲獎賞),集成學(xué)習(xí)的以往研究集中在監(jiān)督學(xué)習(xí)框架下,一種新的學(xué)習(xí)框架:多示例學(xué)習(xí) (multi-instance learning) [T.G. Dietterich et al., AIJ97],3. 多示例集成,3

29、. 多示例集成 (con’t),以往學(xué)習(xí)框架:,多示例學(xué)習(xí)框架:,“能否為常用的機(jī)器學(xué)習(xí)算法設(shè)計其多示例版本?” [T. G. Dietterich et al., AIJ97],3. 多示例集成 (con’t),提出了監(jiān)督學(xué)習(xí)算法向多示例學(xué)習(xí)轉(zhuǎn)化的一般準(zhǔn)則“Shift the focuses of supervised l

30、earning algorithms from the discrimination on the instances to the discrimination on the bags”提出了多示例集成用集成學(xué)習(xí)技術(shù)來解決多示例學(xué)習(xí)問題在基準(zhǔn)測試上獲得了迄今為止最高的精度記錄,Z.-H. Zhou and M.-L. Zhang. Ensembles of multi-instance learners. In: Proc. E

31、CML'03, Cavtat-Dubrovnik, Croatia, pp.492-502.,3. 多示例集成 (con’t),“關(guān)于一個重要話題的寫得非常好的文章” (“Very well written paper on an important topic”) “其新思想和觀點有助于機(jī)器學(xué)習(xí)界更好地理解多示例學(xué)習(xí)涉及的問題” (“New ideas and points of view that help the com

32、munity to better understand the issues involved in multi-instance learning”) “該工作是創(chuàng)新的并且很可能被其他研究者進(jìn)行跟隨研究” (“The work is original and likely to give rise to follow-up papers”)- ECML’03 Reviewer,3. 多示例集成 (con’t),我們使用多示例學(xué)習(xí)器

33、來構(gòu)建多示例集成,論文 發(fā)表半年后,機(jī)器學(xué)習(xí)工具庫WEKA的創(chuàng)始人、著名學(xué)者 E. Frank 的研究組在我們工作的基礎(chǔ)上做了進(jìn)一步的工作 [X. Xu & E. Frank, PAKDD’04] ,使用單示例學(xué)習(xí)器來構(gòu)建多示例集成,也獲得了很好的結(jié)果,,,4. 應(yīng)用,單一學(xué)習(xí)器:誤識率45.5%假陰性率 17.4%, 二級集成方法:誤識率11.6%假陰性率 2.7% (552幅真實圖像),假陰性率降低意味著漏診的

34、病人減少,對肺癌早期診斷很重要,4. 應(yīng)用,Z.-H. Zhou, Y. Jiang, Y.-B. Yang, and S.-F. Chen. Lung cancer cell identification based on artificial neural network ensembles. Artificial Intelligence in Medicine, 2002, 24(1): 25-36. 據(jù)ISI統(tǒng)計, 該文被引次

35、數(shù)在2002年1月以來該刊發(fā)表的所有論文(共201篇)中排第1,4. 應(yīng)用,“這篇文章的質(zhì)量給我留下了非常深刻的印象。我發(fā)現(xiàn)它非常有趣、信息豐富,我真的很享受閱讀這篇文章” (“The quality of the article impressed me very much. I found the article very interesting and informative and, indeed, enjoyed readin

36、g it.” )- M.R. Graczynski, editor of 《Medical Science Monitor》,“您的杰出工作及研究興趣與Artificial Intelligence in Medicine非常相關(guān),您的支持將極大地促進(jìn)該刊的發(fā)展” (“Your outstanding work and research interests are very close to the various areas of

37、artificial intelligence in medicine. I am sure your support will greatly enhance the AIM journal.” )- P. Adlassnig, editor of 《AIM》,小結(jié),近5年來: 國際刊物/會議論文60+篇,其中重要國際刊物(IEEE Trans或相當(dāng))15+篇包括權(quán)威國際刊物AIJ、TKDE、權(quán)威國際會議IJCAI等 授權(quán)專

38、利4項,另有2項正在受理 據(jù)不完全統(tǒng)計,被國際同行他引170余次(其中SCI他引近90次),一些工作得到國際同行好評,產(chǎn)生了一定影響應(yīng)邀擔(dān)任:6家國際刊物的副編輯/編委/客座編輯 20余國際會議顧問委員/程序委員 荷蘭國家科學(xué)基金等一些境外基金機(jī)構(gòu)特邀評審 20余國際刊物(包括AIJ和9種IEEE Trans)的審稿專家,下一步的工作,非

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論