2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1989,1992,1997,2016,2014,2011,BillOthello,Deep Blue,AlphaGo,2007,SPHINX,IBMWatson,AppleSiri,1994,Nuance,ChinookCheckers,1988,FacebookDeepFace,MicrosoftTay,LoebnerPrize,ClaudicoTexas Hold’em,2015,GoogleBrain20

2、12,2000,2013,DQN,XboxKinect,GoogleNow,MicrosoftCortana,PalantirMetropolis,Wealthfront,Betterment,GoogleAdWords,Kensho,GoogleAuto- Email,MS OfficeGrammar,2012,CMU Boss,BostonDynamics,Google Car,Pepper,Amazon Kiva,

3、人工智能發(fā)展的主要里程碑,AI = 機器學(xué)習(xí) + 大數(shù)據(jù),存儲和計算能力的發(fā)展: Intel / Nvidia / SSD / Infiniband數(shù)據(jù)規(guī)模的變化: O2O / 物聯(lián)網(wǎng) / 互聯(lián)網(wǎng)+,機器學(xué)習(xí)領(lǐng)域的發(fā)展: 框架、人才、數(shù)據(jù)科學(xué)家,,,大綱,1. 機器學(xué)習(xí)產(chǎn)品2. 算法與算法框架3. 可擴展平臺架構(gòu)4. 面向部署集成5. 案例與選型,企業(yè)級機器學(xué)習(xí)產(chǎn)品架構(gòu)解析,,,,,,,,,,,,,

4、機器學(xué)習(xí)產(chǎn)品要解決什么問題?,業(yè)務(wù)專家:利用大數(shù)據(jù)和機器學(xué)習(xí)獲得業(yè)務(wù)提升關(guān)心: 模型效果、與業(yè)務(wù)結(jié)合、可解釋,系統(tǒng)管理人員:維護大量數(shù)據(jù)流 & 線上模型服務(wù)關(guān)心: 資源使用、一致性、可管理性,數(shù)據(jù)科學(xué)家:處理數(shù)據(jù) & 模型調(diào)研關(guān)心: 算法、靈活性、可擴展性、性能,,,,,模型效果 VS 調(diào)研成本? 大量數(shù)據(jù)導(dǎo)入導(dǎo)出&預(yù)處理? 特征工程 &調(diào)參領(lǐng)域知識 VS 技能要求? 問題定義

5、和優(yōu)化目標需要業(yè)務(wù)經(jīng)驗? 需要懂Python / Spark / Tensorflow,投產(chǎn)要求 VS 運維難度? 線上特征? 實時預(yù)估服務(wù),機器學(xué)習(xí)平臺的困難?VSVS,VS,,,,提升算法效果,聰明 VS 笨,天真無邪 VS 博覽群書一代宗師 VS 走火入魔,,,確保模型效果 – 充分使用盡可能多的數(shù)據(jù),經(jīng)驗風(fēng)險: 模型對于訓(xùn)練數(shù)據(jù)分類結(jié)果的誤差置信風(fēng)險: 模型對于未

6、知數(shù)據(jù)分類結(jié)果的誤差樣本不足的情況下,VC維越高,越容易過擬合樣本充足的情況下,VC維越高,模型效果越好,-> 如何獲得足夠的樣本數(shù)據(jù):使用更多的表和字段,3維特征-> 如何獲得足夠的計算能力:分布式機器學(xué)習(xí),VC維 = 機器學(xué)習(xí)的智商,,,大規(guī)模機器學(xué)習(xí)框架GDBT,C++ 14 / 兼具運行效率和開發(fā)效率,機器學(xué)習(xí)過程抽象,隱藏分布式細節(jié),數(shù)據(jù)流與學(xué)習(xí)過程的緊密結(jié)合,面向?qū)嶋H客戶問題的算法包,,Spli

7、tRR,SplitRR,SplitRR,map,map,map,(Sort)reduce,OutputFormat,filefileRecordReaders,Input (k,v) pairs,Intermediate (k,v) pairsPartitioner,Write back tolocal HDFSstore,MR/Spark ML 計算模型Node 1Files l

8、oaded from local HDFS storesInput Format,SplitRR,SplitRR,SplitRR,map,map,map,Partitioner,(Sort)reduce,OutputFormat,filefileRecordReaders,Input (k,v) pairs,Intermediate (k,v) pairs,Write back tol

9、ocal HDFSstore,Node 2Files loaded from local HDFS storesInput Format,“Shuffling” process,Intermediate(k,v) pairsexchanged by allnodes,Dataflow,Map,Shuffle,Reduce,,WorkerData Shared,WorkerData Shared,Wo

10、rkerData Shared,Partion 2,ww’=w-η ww’,ww’=w-η ww’,ww’=w-η△ww’,w,w,GDBT 計算模型ParameterServerPartion 1,w inHQueue,ww,w,w,Partitioned by featurePartion 3,MinibatchPush/Pull wLoad

11、 DataFrom Datasource,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,GDBT Not Only Parameter Server,存儲 | 計算 | 通訊 | 災(zāi)備 | 開放接口 | 場景優(yōu)化,HDFS,Local FS,S3…,zeromq,CUDA,MKL…,Yarn,MPI,Mesos,GDBT DataSource/HeterCache,GDBT R

12、pcService,GDBTHeterComputation,GDBT Channel,GDBTProcesses,GDBT ExecEngine,GDBT Group Communication,GDBT ML Components,GDBT Wrapper,GDBT LR/FM…,GDBT Transfer,GDBT TreeNet,GDBTAutoFeature,GDBT W&D NN,GDB

13、T Ensemble,GDBT PS,…,,,…,…,GDBT集成面向客戶適用的算法,DNN modelLR fea-weight,GBDT modelCOEC, continuousfeatures,? 機器學(xué)習(xí)問題并非0和1問題? 需要盡可能利用離散&連續(xù)特征? 面向客戶場景(模型穩(wěn)定性)Bagging+,Deep Sparse Network(第

14、四范式新一代深度學(xué)習(xí)模型,2015),……,,,,,,,,,,GDBT架構(gòu)收益,開發(fā)新算法只需要一百到幾百行代碼(LR、FM),無須關(guān)心分布式細節(jié),就可獲得分布式算法,支持LossFunction/算法數(shù)據(jù)流的定制,,,,,,,降低成本與門檻,,,,? 業(yè)務(wù)專家? 數(shù)據(jù)科學(xué)家? 機器學(xué)習(xí)系統(tǒng)開發(fā)人才,AI – 價值與成本培養(yǎng)一個合格的AI人才需要6-10年的時間,--楊強 AAAI Fellow,第四

15、范式首席科學(xué)家,培養(yǎng)一個合格的AI人才可增加經(jīng)濟收益500-1000萬美元--Andrew Moore 卡耐基梅隆大學(xué)計算機學(xué)院院長在白宮AI發(fā)展聽證會上的講話,? BI? SQL? Oracle DB/DB2,,降低技能門檻 – AutoML / AssistML / TransferLearning,? 算法創(chuàng)新:較少的需要參數(shù)手動調(diào)整,? 自動特征工程:利用DSN,同時獲得千人千

16、面 + 可推理的效果? 高級特征工程算子:序列事件特征、社交關(guān)系特征? 特征和模型可解釋性:輔助建模人員更有效率工作,? Transfer Learning (IN PROGRESS):如何打破全局意義上的數(shù)據(jù)分割,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Prophet – 對模型的全生命周期管理,增量測試數(shù)據(jù),樣本數(shù)據(jù),算法,優(yōu)化算法,標簽,待評估數(shù)據(jù),特征測試數(shù)據(jù),優(yōu)化特征

17、迭代訓(xùn)練,其他場景,遷移,數(shù)據(jù)源,準備數(shù)據(jù),分析處理,數(shù)據(jù)建模,價值應(yīng)用,數(shù)據(jù)接入,模型應(yīng)用,數(shù)據(jù)處理,數(shù)據(jù)分析,特征處理,模型訓(xùn)練,模型評估,模型訓(xùn)練,應(yīng)用,分析,整理,模型,數(shù)據(jù)科學(xué)家/業(yè)務(wù)專家,多功能多語言支持Python、R、SQL等多功能語言和用戶習(xí)慣的使用方式,團隊協(xié)作為不同的團隊角色的提供針對性的功能和與之對應(yīng)的協(xié)作方式,同時提供不同角色的培訓(xùn)服務(wù),易使用交互式的圖形化界面能快速的完成業(yè)務(wù)問

18、題轉(zhuǎn)化和建模過程的定義,高效率提供多種系統(tǒng)化實驗,并提供自動的優(yōu)化和調(diào)參功能,高效能自主知識產(chǎn)權(quán)的專利算法和計算框架提供高效的計算能力和精準的應(yīng)用效果,快速定制作為通用開發(fā)平臺,開發(fā)者可快速依托平臺的組件庫和架構(gòu)完成專屬的人工智能業(yè)務(wù)系統(tǒng)的定制和對接,高可擴展提供多語言的SDK,幫助開發(fā)者在此基礎(chǔ)上完成二次開發(fā)和擴展使用,高處理能力大規(guī)模分布式的底層架構(gòu),滿足高業(yè)務(wù)復(fù)雜度和數(shù)據(jù)量的存儲和處理需求,

19、開發(fā)者/系統(tǒng)工程師,,,,,,,,,,,,,Node ExecutorGDBT OperatorSpark OperatorHDFS FunctionYarn Function,Bigdata ClusterYarn ClusterHDFS StorageSpark StreamingDB Instances,CallReport,ABI Register,Task Pull

20、,Prophet – 系統(tǒng)架構(gòu)Lamma&SDKDAGProphet API Services,Model,Transwarp,PredMgrOnline ClusterPrediction ServiceCannon KVStoreDocker ContainerOnlineNode Agent,管理在線服務(wù)&離線任務(wù)Web界面 &am

21、p; Python SDK任務(wù)調(diào)度:DAG,集群功能代理機制,集群動態(tài)注冊、卸載機制,,,,,,圖形機器學(xué)習(xí)操作界面 - Lamma,算子區(qū),DAG操作區(qū),參數(shù)配置區(qū),計劃操作區(qū),,,,圖形機器學(xué)習(xí)操作界面 - Lamma,? 使用場景以PC為主? ReactJS(核心框架)? Lamma-Flux(數(shù)據(jù)流框架)? Lamma-Parts(組件框架),,,,,,,,圖形機器學(xué)習(xí)操作界面 - Lamma,{,&

22、quot;taskType": "DataSplitAtom","enableGroup": false,"nodeTemplates": [{,"name": "DataSplitAtom", "label": "數(shù)據(jù)拆分", "tag": [ "Da

23、taSplit" ],"inputs": { "type": "data", "slots": [ { "type": "data" } ] },"outputs":,{ "type": "data", "slots": [

24、{ "type": "data" }, { "type": "data" } ] },,"config": { "basic":,{,"method": { "content": 0,,"widget": {,"name": "D

25、ropDown","isVisible": true,"order": 1,,"candidates": [,{ "label": "按比例拆分數(shù)據(jù)", "value": 0, "isDefault": true },{ "label": "按規(guī)則拆分數(shù)

26、據(jù)", "value": 1 },{ "label": "先排序后拆分數(shù)據(jù)", "value": 2 } ],,"label": "拆分方式" },,"isParent": true,,……,? 界面組件模板化開發(fā),,,,,Lamma - 前后端打通? 服務(wù)器端語法推

27、斷和驗證,Spark代理,Web UIAPI GatewayFunc調(diào)度器節(jié)點注冊同時驗證函數(shù)注冊Feature代理驗證&執(zhí)行Hadoop Cluster,,,,,,,,,,,,,,,SDK – 更快的調(diào)研或生產(chǎn)? Web的優(yōu)點: 直觀、可視化? Web的缺點: 操作復(fù)雜,不利于重復(fù)任務(wù)(例如For循環(huán))SDK,Web,共用Pr

28、ophet API ServiceProphet BackendCluster ComputingDistributed Storage,,,,,,,,,,,,,,,架構(gòu)收益,工程團隊和算法團隊的粘合劑:縮短新技術(shù)產(chǎn)品化流程模型調(diào)研過程更有效率,無人值守提供前后端打通功能:訓(xùn)練過程可視化、進度和錯誤可上線,,,,,,,,,面向部署集成,大客戶IT三件事,安全、穩(wěn)定、規(guī)范,企業(yè)產(chǎn)品運維三件事

29、標準、靈活、自動化,,,,,,,,,,大數(shù)據(jù)&機器學(xué)習(xí)給IT運維管理人員帶來的麻煩,資源搶占Troubleshooting麻煩大數(shù)據(jù)集群兼容性上線困難,,,,,,,,,,,,,,,,,,,資源搶占與資源調(diào)度Problem:? 機器學(xué)習(xí)任務(wù)的災(zāi)備設(shè)計與ETL不同? 局部獨占是通常較優(yōu)的調(diào)度策略? 除了Yarn默認的vCPU/內(nèi)存以外,網(wǎng)絡(luò)帶寬、IO也是重要考量因素,

30、TaskScheduler,TS Node,TS NodeTS Node,Network Traffic,IO Usage by device,IncomingTasks,Yarn Container,Yarn ContainerYarn Container,,,,,,,,,,,,,,,Node AgentCluster (Yarn)Computing,Dango – Yarn on Ya

31、rn? 全功能調(diào)度? 計算和存儲分離可能? 根據(jù)Ability調(diào)度任務(wù)? 多集群災(zāi)備,Node AgentCluster (Mesos + CUDA)Computing,Storage,Ability ManagerAbility Register,Task SchedulerStorage ManagerStorageRe

32、gister,,,,TroubleShooting問題Problem:? Hadoop默認UI不友好 (域名、端口、操作方式)? 分布式任務(wù)的TroubleShooting需要經(jīng)驗? 小錯誤導(dǎo)致的時間浪費(大型人物半途終止),Solution:? LogStreaming / WebViewer / LogDownloader? 對日志的關(guān)鍵條目進行分析并展示到UI

33、? 執(zhí)行計劃預(yù)先推斷,,,,,,,,,,,,,,,,,,,,Data Access Adapter,大數(shù)據(jù)集群兼容性Problem:? 企業(yè)通常已有商業(yè)版本的Hadoop集群,開啟安全機制(Kerberos)? 安全機制導(dǎo)致的數(shù)據(jù)服務(wù)器到應(yīng)用服務(wù)器有限端口開放? 多集群管理,ResourceManager,ApplicationInput/Output Data by

34、NameKerberosKeytab & PrincipalInput/Output Data by StreamActual Node Process,AppZoneFirewallDataZone,Prophet Server1對多,僅HTTP端口Prophet Agent1對1,完整端口訪問Hadoop Cluster,,,機器學(xué)習(xí)應(yīng)用的上

35、線,? 線下DAG圖到線上DAG圖的自動轉(zhuǎn)換? 自動容器化部署與資源調(diào)度? 分布式在線模型存儲與計算? 時間窗口特征計算與存儲,,經(jīng)驗&選型參考,,,,哪些業(yè)務(wù)最適合開始機器學(xué)習(xí)實踐?傳統(tǒng)金融(有歷史數(shù)據(jù)、有業(yè)務(wù)干預(yù)點):? 推薦類: 千人千面營銷方案、產(chǎn)品組合推薦? 定價類: 因人而異的服務(wù)組合和定價策略? 風(fēng)險類: 新戶風(fēng)險評分,貸后風(fēng)險評分,

36、欺詐識別,新興互聯(lián)網(wǎng)企業(yè):? 業(yè)務(wù)閉環(huán)可打通(購買行為、評價、反饋)? 有一定的數(shù)據(jù)規(guī)模,更重要的是數(shù)據(jù)累積速度? 基礎(chǔ)設(shè)施建設(shè)(日志、物料庫、效果分析系統(tǒng)),,,,,,搭建機器學(xué)習(xí)系統(tǒng)經(jīng)驗? 學(xué)習(xí)目的 OR 生產(chǎn)目的?? 是否具備足夠的樣本規(guī)模?? 是否需要平臺化管理?? 是否需要線上實時應(yīng)用?,高成本高收益

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論