機(jī)器學(xué)習(xí)研究進(jìn)展-中創(chuàng)軟件

上傳人：奔*** IP屬地：河北更新時間：2024-01-05 格式：ppt 頁數(shù)：40 大?。?.20MB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩39頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、機(jī)器學(xué)習(xí)研究進(jìn)展,周志華,http://cs.nju.edu.cn/people/zhouzh/Email: zhouzh@nju.edu.cn,南京大學(xué)計算機(jī)軟件新技術(shù)國家重點實驗室,提綱,國際動向我們的一些工作,機(jī)器學(xué)習(xí)是人工智能的核心研究領(lǐng)域之一經(jīng)典定義：利用經(jīng)驗改善系統(tǒng)自身的性能隨著該領(lǐng)域的發(fā)展，主要做智能數(shù)據(jù)分析典型任務(wù)：根據(jù)現(xiàn)有數(shù)據(jù)建立預(yù)測模型,機(jī)器學(xué)習(xí),美國航空航天局JPL實驗室的科學(xué)家在《Science》（20

2、01年9月）上撰文指出：機(jī)器學(xué)習(xí)對科學(xué)研究的整個過程正起到越來越大的支持作用，……，該領(lǐng)域在今后的若干年內(nèi)將取得穩(wěn)定而快速的發(fā)展,機(jī)器學(xué)習(xí)的重要性,美國航空航天局JPL實驗室的科學(xué)家在《Science》（2001年9月）上撰文指出：機(jī)器學(xué)習(xí)對科學(xué)研究的整個過程正起到越來越大的支持作用，……，該領(lǐng)域在今后的若干年內(nèi)將取得穩(wěn)定而快速的發(fā)展,機(jī)器學(xué)習(xí)的重要性,,入侵檢測：是否是入侵？是何種入侵？,如何檢測？歷史數(shù)據(jù)：以往的正常訪問模式及其

3、表現(xiàn)、以往的入侵模式及其表現(xiàn)……對當(dāng)前訪問模式分類,這是一個典型的機(jī)器學(xué)習(xí)問題常用技術(shù)：神經(jīng)網(wǎng)絡(luò) 決策樹支持向量機(jī) 貝葉斯分類器k近鄰序列分析聚類…… ……,,例1:網(wǎng)絡(luò)安全,常用技術(shù)：神經(jīng)網(wǎng)絡(luò) 支持向量機(jī)隱馬爾可夫模型貝葉斯分類器 k近鄰決策樹序列分析聚類…… ……,,,,例2:生物信息學(xué),Google的成功，使得Interne

4、t 搜索引擎成為一個新興的產(chǎn)業(yè)不僅有眾多專營搜索引擎的公司出現(xiàn)（例如專門針對中文搜索的就有百度、慧聰?shù)龋?，而且Microsoft等巨頭也開始投入巨資進(jìn)行研發(fā)Google掘到的第一桶金，來源于其創(chuàng)始人Larry Page和Sergey Brin提出的PageRank算法機(jī)器學(xué)習(xí)技術(shù)正在支撐著各類搜索引擎,例3:搜索引擎,DARPA 2003年開始啟動PAL（Perceptive Assistant that

5、 Learns）計劃5年期，首期（1-1.5年）投資2千9百萬美元以機(jī)器學(xué)習(xí)為核心的計劃（涉及到AI的其他分支，如知識表示和推理、自然語言處理等）；包含2個子計劃總目標(biāo)：“is expected to yield new technology of significant value to the military, business, and academic sectors” “develop software that

6、will help decision-makers manage their complex worlds of multiple simultaneous tasks and unexpected events”,美國的PAL計劃,RADAR (Reflective Agents with Distributed Adaptive Reasoning)，承擔(dān)單位為CMU，首期7百萬美元目標(biāo)：“the sy

7、stem will help busy managers to cope with time-consuming tasks” “RADAR must learn by interacting with its human master and by accepting explicit advice and instruction”,美國的PAL計劃: RADAR子計劃,CALO (Cognitive Agent

8、 that Learns and Observes)，承擔(dān)單位為SRI，首期2千2百萬美元除SRI外，這個子計劃的參加單位有20家：Boeing, CMU, Dejima Inc., Fetch Tech Inc., GATech, MIT, Oregon HSU, Stanford, SUNY-Stony Brook, UC Berkeley, UMass, UMich, UPenn, Rochester, USC,

9、 UT Austin, UW, Yale, …CALO無疑是PAL中更核心的部分,美國的PAL計劃: CALO子計劃(1),目標(biāo)： “the name CALO was inspired by the Latin word ‘calonis’, which means ‘soldier’s assistant’”,“the CALO software, which will learn by working with and

10、being advised by its users, will handle a broad range of interrelated decision-making tasks … It will have the capability to engage in and carry out routine tasks, and to assist when the unexpected happens”,從CALO的目標(biāo)來看，DA

11、RPA已經(jīng)開始把機(jī)器學(xué)習(xí)技術(shù)的重要性放到了國家安全的角度來考慮,美國的PAL計劃: CALO子計劃(2),美國的PAL計劃: CALO子計劃(3),為什么要研究集成學(xué)習(xí)?,我們最近關(guān)于集成學(xué)習(xí)的一些工作,泛化能力是機(jī)器學(xué)習(xí)關(guān)注的一個根本問題泛化能力(generalization ability)表征了學(xué)習(xí)系統(tǒng)對新事件的適用性泛化能力越強(qiáng)越好提高泛化能力是機(jī)器學(xué)習(xí)永遠(yuǎn)的追求,泛化能力,集成學(xué)習(xí)(Ensemble

12、 Learning)是一種機(jī)器學(xué)習(xí)范式，它使用多個學(xué)習(xí)器來解決同一個問題,,集成學(xué)習(xí),由于集成學(xué)習(xí)可以有效地提高學(xué)習(xí)系統(tǒng)的泛化能力，因此它成為國際機(jī)器學(xué)習(xí)界的研究熱點“當(dāng)前機(jī)器學(xué)習(xí)四大研究方向之首” [T.G. Dietterich, AIMag97],我們的一些工作,選擇性集成集成可理解性多示例集成應(yīng)用,既然多個學(xué)習(xí)器的集成比單個學(xué)習(xí)器更好，那么是不是學(xué)習(xí)器越多越好?,更多的個體意味著：在預(yù)測時需要更大的計算開銷，因為要計

13、算更多的個體預(yù)測更大的存儲開銷，因為有更多的個體需要保存,1. 選擇性集成,提出了選擇性集成(Selective Ensemble) 證明了 “Many Could be Better Than All” Theorem在有一組個體學(xué)習(xí)器可用時，從中選擇一部分進(jìn)行集成，可能比用所有個體學(xué)習(xí)器進(jìn)行集成更好,1. 選擇性集成 (con’t),Z.-H. Zhou, J. Wu, and W. Tang. Ensembling neu

14、ral networks: many could be better than all. Artificial Intelligence, 2002, 137(1-2): 239-263. 據(jù)ISI統(tǒng)計, 該文被引次數(shù)在2002年1月以來該刊發(fā)表的所有論文(共278篇)中排第4 Z.-H. Zhou, J.-X. Wu, Y. Jiang, and S.-F. Chen. Genetic algorithm based selecti

15、ve neural network ensemble. In: Proc. IJCAI'01, Seattle, WA, pp.797-802.,提出了GASEN算法顯示出選擇性集成理論的可操作性使用少得多的個體學(xué)習(xí)器，取得了比Bagging和Boosting更高的精度,1. 選擇性集成 (con’t),Z.-H. Zhou, J. Wu, and W. Tang. Ensembling neural networks: m

16、any could be better than all. Artificial Intelligence, 2002, 137(1-2): 239-263. 據(jù)ISI統(tǒng)計, 該文被引次數(shù)在2002年1月以來該刊發(fā)表的所有論文(共278篇)中排第4 Z.-H. Zhou, J.-X. Wu, Y. Jiang, and S.-F. Chen. Genetic algorithm based selective neural netwo

17、rk ensemble. In: Proc. IJCAI'01, Seattle, WA, pp.797-802.,選擇性集成思想的一般性：利用多個個體，并對個體進(jìn)行選擇，可以獲得更好的結(jié)果,選擇性集成的思想可以用到更多的領(lǐng)域中去選擇的基本原則：個體的效用高、差異大,1. 選擇性集成 (con’t),國際上的一些研究：基于選擇性集成的時序預(yù)報 [S. Chiewchanwattana et al., ICONIP’02]

18、 GASEN的Grid實現(xiàn) [T.K. Vin et al., IEEE ICDFMA’05] 新的選擇性集成方法 [N. Garcia-Pedrajas, TEC’05] … …,1. 選擇性集成 (con’t),top 1% cited paper since 2000 -ISI “非常重要，非常新穎” (“very significant, very original”)

19、 – IJCAI’01 Review “優(yōu)秀論文” (“excellent paper”) – 《AIJ》 editor “最佳論文之一” (“one of the best papers” ) – 《IJCIA》 editor “了不起的是，該方法比以往著名的

20、集成方法性能更好，而且只用了較小的計算代價” (“It is remarkable that this strategy performs better than well-established ensembling approaches,…, at a much lower computational cost”) – C. Torras “開辟了廣闊的領(lǐng)

21、域” (“opens a wide field” ) – N. Garcia-Pedrajas 《IEEE Trans. EC》,1. 選擇性集成 (con’t),理想的學(xué)習(xí)系統(tǒng)強(qiáng)泛化能力好可理解性 (comprehensibility) 在很多應(yīng)用中，學(xué)習(xí)系統(tǒng)只是一種輔助手段，最終的決策還是需要由用戶來做,2. 集成可理解性,“增強(qiáng)集成可理解性是一個有待研究的問題” [T.G. Dietterich, AIMag97

22、],2. 集成可理解性 (con’t),提出了REFNE方法從功能分析的角度出發(fā)可以從集成中抽取符號規(guī)則，使得集成的功能可以由符號規(guī)則來描述,Z.-H. Zhou, Y. Jiang, and S.-F. Chen. Extracting symbolic rules from trained neural network ensembles. AI Communications, 2003, 16(1): 3-15.據(jù)ISI統(tǒng)

23、計, 該文被引次數(shù)在2003年1月以來該刊發(fā)表的所有論文(共67篇)中排第1,提出了二次學(xué)習(xí) (twice-learning)提出了C4.5Rule-PANE算法,Z.-H. Zhou and Y. Jiang. Medical diagnosis with C4.5 rule preceded by artificial neural network ensemble. IEEE Transactions on Informatio

24、n Technology in Biomedicine, 2003, 7(1): 37-42. 據(jù)ISI統(tǒng)計, 該文被引次數(shù)在2003年1月以來該刊發(fā)表的所有論文(共160篇)中排第5,2. 集成可理解性 (con’t),獲得：強(qiáng)泛化能力 + 好可理解性,提出了NeC4.5算法從理論上分析了二次學(xué)習(xí)奏效的原因，推導(dǎo)出條件數(shù)據(jù)中包含噪音數(shù)據(jù)沒有完全表達(dá)目標(biāo)分布直接用L1學(xué)得結(jié)果的泛化能力顯著優(yōu)于用L2學(xué)得的結(jié)果,Z.-H.

25、 Zhou and Y. Jiang. NeC4.5: neural ensemble based C4.5. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(6): 770-773.,2. 集成可理解性 (con’t),,“總之，C4.5Rule-PANE應(yīng)被視為追求完美規(guī)則抽取技術(shù)這一圣杯的人的武器” (“In summary, C4.5 Rule-PANE

26、 should be viewed as yet another weapon in the armoury of those seeking the holy grail of a perfect rule extraction technique” )- M. Pennington’s thesis supervised by A.J.C. Sharkey,2. 集成可理解性 (con’t),Free C4.5Rule-PANE

27、package:http://cs.nju.edu.cn/people/zhouzh/zhouzh.files/publication/annex/C45Rule-PANE.htmFree NeC4.5 package:http://cs.nju.edu.cn/people/zhouzh/zhouzh.files/publication/annex/NeC45.htm,3. 多示例集成,三種機(jī)器學(xué)習(xí)框架: 監(jiān)督學(xué)習(xí)(superv

28、ised learning)所有訓(xùn)練樣本都有標(biāo)記(label) 非監(jiān)督學(xué)習(xí)(unsupervised learning)所有訓(xùn)練樣本都沒有標(biāo)記強(qiáng)化學(xué)習(xí)(reinforcement learning)延遲標(biāo)記(延遲獎賞),集成學(xué)習(xí)的以往研究集中在監(jiān)督學(xué)習(xí)框架下,一種新的學(xué)習(xí)框架：多示例學(xué)習(xí) (multi-instance learning) [T.G. Dietterich et al., AIJ97],3. 多示例集成,3

29、. 多示例集成 (con’t),以往學(xué)習(xí)框架：,多示例學(xué)習(xí)框架：,“能否為常用的機(jī)器學(xué)習(xí)算法設(shè)計其多示例版本？” [T. G. Dietterich et al., AIJ97],3. 多示例集成 (con’t),提出了監(jiān)督學(xué)習(xí)算法向多示例學(xué)習(xí)轉(zhuǎn)化的一般準(zhǔn)則“Shift the focuses of supervised l

30、earning algorithms from the discrimination on the instances to the discrimination on the bags”提出了多示例集成用集成學(xué)習(xí)技術(shù)來解決多示例學(xué)習(xí)問題在基準(zhǔn)測試上獲得了迄今為止最高的精度記錄,Z.-H. Zhou and M.-L. Zhang. Ensembles of multi-instance learners. In: Proc. E

31、CML'03, Cavtat-Dubrovnik, Croatia, pp.492-502.,3. 多示例集成 (con’t),“關(guān)于一個重要話題的寫得非常好的文章” (“Very well written paper on an important topic”) “其新思想和觀點有助于機(jī)器學(xué)習(xí)界更好地理解多示例學(xué)習(xí)涉及的問題” (“New ideas and points of view that help the com

32、munity to better understand the issues involved in multi-instance learning”) “該工作是創(chuàng)新的并且很可能被其他研究者進(jìn)行跟隨研究” (“The work is original and likely to give rise to follow-up papers”)- ECML’03 Reviewer,3. 多示例集成 (con’t),我們使用多示例學(xué)習(xí)器

33、來構(gòu)建多示例集成，論文發(fā)表半年后，機(jī)器學(xué)習(xí)工具庫WEKA的創(chuàng)始人、著名學(xué)者 E. Frank 的研究組在我們工作的基礎(chǔ)上做了進(jìn)一步的工作 [X. Xu & E. Frank, PAKDD’04] ，使用單示例學(xué)習(xí)器來構(gòu)建多示例集成，也獲得了很好的結(jié)果,,,4. 應(yīng)用,單一學(xué)習(xí)器：誤識率45.5%假陰性率 17.4%, 二級集成方法：誤識率11.6%假陰性率 2.7% (552幅真實圖像),假陰性率降低意味著漏診的

34、病人減少，對肺癌早期診斷很重要,4. 應(yīng)用,Z.-H. Zhou, Y. Jiang, Y.-B. Yang, and S.-F. Chen. Lung cancer cell identification based on artificial neural network ensembles. Artificial Intelligence in Medicine, 2002, 24(1): 25-36. 據(jù)ISI統(tǒng)計, 該文被引次

35、數(shù)在2002年1月以來該刊發(fā)表的所有論文(共201篇)中排第1,4. 應(yīng)用,“這篇文章的質(zhì)量給我留下了非常深刻的印象。我發(fā)現(xiàn)它非常有趣、信息豐富，我真的很享受閱讀這篇文章” (“The quality of the article impressed me very much. I found the article very interesting and informative and, indeed, enjoyed readin

36、g it.” )- M.R. Graczynski, editor of 《Medical Science Monitor》,“您的杰出工作及研究興趣與Artificial Intelligence in Medicine非常相關(guān)，您的支持將極大地促進(jìn)該刊的發(fā)展” (“Your outstanding work and research interests are very close to the various areas of

37、artificial intelligence in medicine. I am sure your support will greatly enhance the AIM journal.” )- P. Adlassnig, editor of 《AIM》,小結(jié),近5年來: 國際刊物/會議論文60+篇，其中重要國際刊物（IEEE Trans或相當(dāng)）15+篇包括權(quán)威國際刊物AIJ、TKDE、權(quán)威國際會議IJCAI等授權(quán)專

38、利4項，另有2項正在受理據(jù)不完全統(tǒng)計，被國際同行他引170余次（其中SCI他引近90次），一些工作得到國際同行好評，產(chǎn)生了一定影響應(yīng)邀擔(dān)任：6家國際刊物的副編輯/編委/客座編輯 20余國際會議顧問委員/程序委員荷蘭國家科學(xué)基金等一些境外基金機(jī)構(gòu)特邀評審 20余國際刊物（包括AIJ和9種IEEE Trans）的審稿專家,下一步的工作,非

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

機(jī)器學(xué)習(xí)研究進(jìn)展-中創(chuàng)軟件

文檔簡介

溫馨提示

最新文檔

評論

機(jī)器學(xué)習(xí)研究進(jìn)展-中創(chuàng)軟件

文檔簡介

溫馨提示

最新文檔

評論

免費下載