版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、1989,1992,1997,2016,2014,2011,BillOthello,Deep Blue,AlphaGo,2007,SPHINX,IBMWatson,AppleSiri,1994,Nuance,ChinookCheckers,1988,FacebookDeepFace,MicrosoftTay,LoebnerPrize,ClaudicoTexas Hold’em,2015,GoogleBrain20
2、12,2000,2013,DQN,XboxKinect,GoogleNow,MicrosoftCortana,PalantirMetropolis,Wealthfront,Betterment,GoogleAdWords,Kensho,GoogleAuto- Email,MS OfficeGrammar,2012,CMU Boss,BostonDynamics,Google Car,Pepper,Amazon Kiva,
3、人工智能發(fā)展的主要里程碑,AI = 機器學(xué)習(xí) + 大數(shù)據(jù),存儲和計算能力的發(fā)展: Intel / Nvidia / SSD / Infiniband數(shù)據(jù)規(guī)模的變化: O2O / 物聯(lián)網(wǎng) / 互聯(lián)網(wǎng)+,機器學(xué)習(xí)領(lǐng)域的發(fā)展: 框架、人才、數(shù)據(jù)科學(xué)家,,,大綱,1. 機器學(xué)習(xí)產(chǎn)品2. 算法與算法框架3. 可擴展平臺架構(gòu)4. 面向部署集成5. 案例與選型,企業(yè)級機器學(xué)習(xí)產(chǎn)品架構(gòu)解析,,,,,,,,,,,,,
4、機器學(xué)習(xí)產(chǎn)品要解決什么問題?,業(yè)務(wù)專家:利用大數(shù)據(jù)和機器學(xué)習(xí)獲得業(yè)務(wù)提升關(guān)心: 模型效果、與業(yè)務(wù)結(jié)合、可解釋,系統(tǒng)管理人員:維護大量數(shù)據(jù)流 & 線上模型服務(wù)關(guān)心: 資源使用、一致性、可管理性,數(shù)據(jù)科學(xué)家:處理數(shù)據(jù) & 模型調(diào)研關(guān)心: 算法、靈活性、可擴展性、性能,,,,,模型效果 VS 調(diào)研成本? 大量數(shù)據(jù)導(dǎo)入導(dǎo)出&預(yù)處理? 特征工程 &調(diào)參領(lǐng)域知識 VS 技能要求? 問題定義
5、和優(yōu)化目標需要業(yè)務(wù)經(jīng)驗? 需要懂Python / Spark / Tensorflow,投產(chǎn)要求 VS 運維難度? 線上特征? 實時預(yù)估服務(wù),機器學(xué)習(xí)平臺的困難?VSVS,VS,,,,提升算法效果,聰明 VS 笨,天真無邪 VS 博覽群書一代宗師 VS 走火入魔,,,確保模型效果 – 充分使用盡可能多的數(shù)據(jù),經(jīng)驗風(fēng)險: 模型對于訓(xùn)練數(shù)據(jù)分類結(jié)果的誤差置信風(fēng)險: 模型對于未
6、知數(shù)據(jù)分類結(jié)果的誤差樣本不足的情況下,VC維越高,越容易過擬合樣本充足的情況下,VC維越高,模型效果越好,-> 如何獲得足夠的樣本數(shù)據(jù):使用更多的表和字段,3維特征-> 如何獲得足夠的計算能力:分布式機器學(xué)習(xí),VC維 = 機器學(xué)習(xí)的智商,,,大規(guī)模機器學(xué)習(xí)框架GDBT,C++ 14 / 兼具運行效率和開發(fā)效率,機器學(xué)習(xí)過程抽象,隱藏分布式細節(jié),數(shù)據(jù)流與學(xué)習(xí)過程的緊密結(jié)合,面向?qū)嶋H客戶問題的算法包,,Spli
7、tRR,SplitRR,SplitRR,map,map,map,(Sort)reduce,OutputFormat,filefileRecordReaders,Input (k,v) pairs,Intermediate (k,v) pairsPartitioner,Write back tolocal HDFSstore,MR/Spark ML 計算模型Node 1Files l
8、oaded from local HDFS storesInput Format,SplitRR,SplitRR,SplitRR,map,map,map,Partitioner,(Sort)reduce,OutputFormat,filefileRecordReaders,Input (k,v) pairs,Intermediate (k,v) pairs,Write back tol
9、ocal HDFSstore,Node 2Files loaded from local HDFS storesInput Format,“Shuffling” process,Intermediate(k,v) pairsexchanged by allnodes,Dataflow,Map,Shuffle,Reduce,,WorkerData Shared,WorkerData Shared,Wo
10、rkerData Shared,Partion 2,ww’=w-η ww’,ww’=w-η ww’,ww’=w-η△ww’,w,w,GDBT 計算模型ParameterServerPartion 1,w inHQueue,ww,w,w,Partitioned by featurePartion 3,MinibatchPush/Pull wLoad
11、 DataFrom Datasource,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,GDBT Not Only Parameter Server,存儲 | 計算 | 通訊 | 災(zāi)備 | 開放接口 | 場景優(yōu)化,HDFS,Local FS,S3…,zeromq,CUDA,MKL…,Yarn,MPI,Mesos,GDBT DataSource/HeterCache,GDBT R
12、pcService,GDBTHeterComputation,GDBT Channel,GDBTProcesses,GDBT ExecEngine,GDBT Group Communication,GDBT ML Components,GDBT Wrapper,GDBT LR/FM…,GDBT Transfer,GDBT TreeNet,GDBTAutoFeature,GDBT W&D NN,GDB
13、T Ensemble,GDBT PS,…,,,…,…,GDBT集成面向客戶適用的算法,DNN modelLR fea-weight,GBDT modelCOEC, continuousfeatures,? 機器學(xué)習(xí)問題并非0和1問題? 需要盡可能利用離散&連續(xù)特征? 面向客戶場景(模型穩(wěn)定性)Bagging+,Deep Sparse Network(第
14、四范式新一代深度學(xué)習(xí)模型,2015),……,,,,,,,,,,GDBT架構(gòu)收益,開發(fā)新算法只需要一百到幾百行代碼(LR、FM),無須關(guān)心分布式細節(jié),就可獲得分布式算法,支持LossFunction/算法數(shù)據(jù)流的定制,,,,,,,降低成本與門檻,,,,? 業(yè)務(wù)專家? 數(shù)據(jù)科學(xué)家? 機器學(xué)習(xí)系統(tǒng)開發(fā)人才,AI – 價值與成本培養(yǎng)一個合格的AI人才需要6-10年的時間,--楊強 AAAI Fellow,第四
15、范式首席科學(xué)家,培養(yǎng)一個合格的AI人才可增加經(jīng)濟收益500-1000萬美元--Andrew Moore 卡耐基梅隆大學(xué)計算機學(xué)院院長在白宮AI發(fā)展聽證會上的講話,? BI? SQL? Oracle DB/DB2,,降低技能門檻 – AutoML / AssistML / TransferLearning,? 算法創(chuàng)新:較少的需要參數(shù)手動調(diào)整,? 自動特征工程:利用DSN,同時獲得千人千
16、面 + 可推理的效果? 高級特征工程算子:序列事件特征、社交關(guān)系特征? 特征和模型可解釋性:輔助建模人員更有效率工作,? Transfer Learning (IN PROGRESS):如何打破全局意義上的數(shù)據(jù)分割,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Prophet – 對模型的全生命周期管理,增量測試數(shù)據(jù),樣本數(shù)據(jù),算法,優(yōu)化算法,標簽,待評估數(shù)據(jù),特征測試數(shù)據(jù),優(yōu)化特征
17、迭代訓(xùn)練,其他場景,遷移,數(shù)據(jù)源,準備數(shù)據(jù),分析處理,數(shù)據(jù)建模,價值應(yīng)用,數(shù)據(jù)接入,模型應(yīng)用,數(shù)據(jù)處理,數(shù)據(jù)分析,特征處理,模型訓(xùn)練,模型評估,模型訓(xùn)練,應(yīng)用,分析,整理,模型,數(shù)據(jù)科學(xué)家/業(yè)務(wù)專家,多功能多語言支持Python、R、SQL等多功能語言和用戶習(xí)慣的使用方式,團隊協(xié)作為不同的團隊角色的提供針對性的功能和與之對應(yīng)的協(xié)作方式,同時提供不同角色的培訓(xùn)服務(wù),易使用交互式的圖形化界面能快速的完成業(yè)務(wù)問
18、題轉(zhuǎn)化和建模過程的定義,高效率提供多種系統(tǒng)化實驗,并提供自動的優(yōu)化和調(diào)參功能,高效能自主知識產(chǎn)權(quán)的專利算法和計算框架提供高效的計算能力和精準的應(yīng)用效果,快速定制作為通用開發(fā)平臺,開發(fā)者可快速依托平臺的組件庫和架構(gòu)完成專屬的人工智能業(yè)務(wù)系統(tǒng)的定制和對接,高可擴展提供多語言的SDK,幫助開發(fā)者在此基礎(chǔ)上完成二次開發(fā)和擴展使用,高處理能力大規(guī)模分布式的底層架構(gòu),滿足高業(yè)務(wù)復(fù)雜度和數(shù)據(jù)量的存儲和處理需求,
19、開發(fā)者/系統(tǒng)工程師,,,,,,,,,,,,,Node ExecutorGDBT OperatorSpark OperatorHDFS FunctionYarn Function,Bigdata ClusterYarn ClusterHDFS StorageSpark StreamingDB Instances,CallReport,ABI Register,Task Pull
20、,Prophet – 系統(tǒng)架構(gòu)Lamma&SDKDAGProphet API Services,Model,Transwarp,PredMgrOnline ClusterPrediction ServiceCannon KVStoreDocker ContainerOnlineNode Agent,管理在線服務(wù)&離線任務(wù)Web界面 &am
21、p; Python SDK任務(wù)調(diào)度:DAG,集群功能代理機制,集群動態(tài)注冊、卸載機制,,,,,,圖形機器學(xué)習(xí)操作界面 - Lamma,算子區(qū),DAG操作區(qū),參數(shù)配置區(qū),計劃操作區(qū),,,,圖形機器學(xué)習(xí)操作界面 - Lamma,? 使用場景以PC為主? ReactJS(核心框架)? Lamma-Flux(數(shù)據(jù)流框架)? Lamma-Parts(組件框架),,,,,,,,圖形機器學(xué)習(xí)操作界面 - Lamma,{,&
22、quot;taskType": "DataSplitAtom","enableGroup": false,"nodeTemplates": [{,"name": "DataSplitAtom", "label": "數(shù)據(jù)拆分", "tag": [ "Da
23、taSplit" ],"inputs": { "type": "data", "slots": [ { "type": "data" } ] },"outputs":,{ "type": "data", "slots": [
24、{ "type": "data" }, { "type": "data" } ] },,"config": { "basic":,{,"method": { "content": 0,,"widget": {,"name": "D
25、ropDown","isVisible": true,"order": 1,,"candidates": [,{ "label": "按比例拆分數(shù)據(jù)", "value": 0, "isDefault": true },{ "label": "按規(guī)則拆分數(shù)
26、據(jù)", "value": 1 },{ "label": "先排序后拆分數(shù)據(jù)", "value": 2 } ],,"label": "拆分方式" },,"isParent": true,,……,? 界面組件模板化開發(fā),,,,,Lamma - 前后端打通? 服務(wù)器端語法推
27、斷和驗證,Spark代理,Web UIAPI GatewayFunc調(diào)度器節(jié)點注冊同時驗證函數(shù)注冊Feature代理驗證&執(zhí)行Hadoop Cluster,,,,,,,,,,,,,,,SDK – 更快的調(diào)研或生產(chǎn)? Web的優(yōu)點: 直觀、可視化? Web的缺點: 操作復(fù)雜,不利于重復(fù)任務(wù)(例如For循環(huán))SDK,Web,共用Pr
28、ophet API ServiceProphet BackendCluster ComputingDistributed Storage,,,,,,,,,,,,,,,架構(gòu)收益,工程團隊和算法團隊的粘合劑:縮短新技術(shù)產(chǎn)品化流程模型調(diào)研過程更有效率,無人值守提供前后端打通功能:訓(xùn)練過程可視化、進度和錯誤可上線,,,,,,,,,面向部署集成,大客戶IT三件事,安全、穩(wěn)定、規(guī)范,企業(yè)產(chǎn)品運維三件事
29、標準、靈活、自動化,,,,,,,,,,大數(shù)據(jù)&機器學(xué)習(xí)給IT運維管理人員帶來的麻煩,資源搶占Troubleshooting麻煩大數(shù)據(jù)集群兼容性上線困難,,,,,,,,,,,,,,,,,,,資源搶占與資源調(diào)度Problem:? 機器學(xué)習(xí)任務(wù)的災(zāi)備設(shè)計與ETL不同? 局部獨占是通常較優(yōu)的調(diào)度策略? 除了Yarn默認的vCPU/內(nèi)存以外,網(wǎng)絡(luò)帶寬、IO也是重要考量因素,
30、TaskScheduler,TS Node,TS NodeTS Node,Network Traffic,IO Usage by device,IncomingTasks,Yarn Container,Yarn ContainerYarn Container,,,,,,,,,,,,,,,Node AgentCluster (Yarn)Computing,Dango – Yarn on Ya
31、rn? 全功能調(diào)度? 計算和存儲分離可能? 根據(jù)Ability調(diào)度任務(wù)? 多集群災(zāi)備,Node AgentCluster (Mesos + CUDA)Computing,Storage,Ability ManagerAbility Register,Task SchedulerStorage ManagerStorageRe
32、gister,,,,TroubleShooting問題Problem:? Hadoop默認UI不友好 (域名、端口、操作方式)? 分布式任務(wù)的TroubleShooting需要經(jīng)驗? 小錯誤導(dǎo)致的時間浪費(大型人物半途終止),Solution:? LogStreaming / WebViewer / LogDownloader? 對日志的關(guān)鍵條目進行分析并展示到UI
33、? 執(zhí)行計劃預(yù)先推斷,,,,,,,,,,,,,,,,,,,,Data Access Adapter,大數(shù)據(jù)集群兼容性Problem:? 企業(yè)通常已有商業(yè)版本的Hadoop集群,開啟安全機制(Kerberos)? 安全機制導(dǎo)致的數(shù)據(jù)服務(wù)器到應(yīng)用服務(wù)器有限端口開放? 多集群管理,ResourceManager,ApplicationInput/Output Data by
34、NameKerberosKeytab & PrincipalInput/Output Data by StreamActual Node Process,AppZoneFirewallDataZone,Prophet Server1對多,僅HTTP端口Prophet Agent1對1,完整端口訪問Hadoop Cluster,,,機器學(xué)習(xí)應(yīng)用的上
35、線,? 線下DAG圖到線上DAG圖的自動轉(zhuǎn)換? 自動容器化部署與資源調(diào)度? 分布式在線模型存儲與計算? 時間窗口特征計算與存儲,,經(jīng)驗&選型參考,,,,哪些業(yè)務(wù)最適合開始機器學(xué)習(xí)實踐?傳統(tǒng)金融(有歷史數(shù)據(jù)、有業(yè)務(wù)干預(yù)點):? 推薦類: 千人千面營銷方案、產(chǎn)品組合推薦? 定價類: 因人而異的服務(wù)組合和定價策略? 風(fēng)險類: 新戶風(fēng)險評分,貸后風(fēng)險評分,
36、欺詐識別,新興互聯(lián)網(wǎng)企業(yè):? 業(yè)務(wù)閉環(huán)可打通(購買行為、評價、反饋)? 有一定的數(shù)據(jù)規(guī)模,更重要的是數(shù)據(jù)累積速度? 基礎(chǔ)設(shè)施建設(shè)(日志、物料庫、效果分析系統(tǒng)),,,,,,搭建機器學(xué)習(xí)系統(tǒng)經(jīng)驗? 學(xué)習(xí)目的 OR 生產(chǎn)目的?? 是否具備足夠的樣本規(guī)模?? 是否需要平臺化管理?? 是否需要線上實時應(yīng)用?,高成本高收益
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)級即時消息平臺研究.pdf
- 企業(yè)級應(yīng)用平臺的設(shè)計與實現(xiàn).pdf
- D公司IT企業(yè)級產(chǎn)品營銷策略研究.pdf
- 企業(yè)級異構(gòu)數(shù)據(jù)共享平臺的研究.pdf
- 企業(yè)級云應(yīng)用開發(fā)平臺的研究.pdf
- 基于java的企業(yè)級即時平臺設(shè)計與實現(xiàn)
- 基于企業(yè)級移動增值服務(wù)平臺的研究.pdf
- gbase企業(yè)級大數(shù)據(jù)平臺-功能測試報告
- 企業(yè)級業(yè)務(wù)流程平臺建設(shè)解決方案
- 企業(yè)級移動應(yīng)用支撐平臺的設(shè)計與實現(xiàn).pdf
- 基于FLEX的企業(yè)級設(shè)備管理平臺開發(fā).pdf
- 企業(yè)級ArcGIS共享服務(wù)平臺應(yīng)用研究.pdf
- 企業(yè)級軟件開發(fā)平臺認證授權(quán)系統(tǒng)的研究.pdf
- 企業(yè)級協(xié)同產(chǎn)品研制管理系統(tǒng)設(shè)計與實現(xiàn).pdf
- 企業(yè)級統(tǒng)一用戶管理平臺設(shè)計與實現(xiàn).pdf
- 企業(yè)級應(yīng)用系統(tǒng)綜合管理平臺的研究與實現(xiàn).pdf
- 軟交換技術(shù)與企業(yè)級CTI智能業(yè)務(wù)平臺開發(fā).pdf
- 企業(yè)級傳感器監(jiān)控平臺的設(shè)計與實現(xiàn).pdf
- msc-simmanager-新一代企業(yè)級仿真管理平臺
- 基于面向服務(wù)架構(gòu)的企業(yè)級GIS平臺的實現(xiàn).pdf
評論
0/150
提交評論