深度強(qiáng)化學(xué)習(xí)中文綜述-計(jì)算機(jī)學(xué)報(bào)_第1頁(yè)
已閱讀1頁(yè),還剩27頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第 40 卷 計(jì) 算 機(jī) 學(xué) 報(bào) Vol. 40 2017 年 論文在線出版號(hào) No.1 CHINESE JOURNAL OF COMPUTERS Online Publishing No.1 ——————————————— 本課題得到國(guó)家自然科學(xué)基金項(xiàng)目(61472262, 61303108, 61373094, 61502323, 61502329)、蘇州市應(yīng)用基礎(chǔ)研究計(jì)劃工業(yè)部分(SYG201422, S

2、YG201308)資助.劉全(通訊作者),男,1969 年生,博士,教授,博士生導(dǎo)師,中國(guó)計(jì)算機(jī)協(xié)會(huì)(CCF)高級(jí)會(huì)員,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、 深度強(qiáng)化學(xué)習(xí)和自動(dòng)推理.E-mail:quanliu@suda.edu.cn. 翟建偉, 男, 1992 年生, 碩士研究生, 主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、 深度學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí). 章宗長(zhǎng), 男, 1985 年生, 博士, 副教授, 計(jì)算機(jī)學(xué)會(huì)會(huì)員, 主要研究領(lǐng)域?yàn)椴糠指兄鸟R爾可夫決策過程、強(qiáng)

3、化學(xué)習(xí)和多 agent 系統(tǒng). 鐘珊,女,1983 年 生,博士研究生,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)和深度學(xué)習(xí). 周倩,女,1992 年生,碩士研究生,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí).章鵬,男,1992 年生,碩士 研究生,主要研究方向?yàn)檫B續(xù)空間強(qiáng)化學(xué)習(xí). 徐進(jìn),男,1991 年生,碩士研究生,主要研究方向?yàn)檫B續(xù)空間深度強(qiáng)化學(xué)習(xí). 深度強(qiáng)化學(xué)習(xí)綜述 劉 全+ 翟建偉 章宗長(zhǎng) 鐘珊 周 倩 章 鵬 徐

4、進(jìn) 1)(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇 蘇州 215006) 2)(軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心 南京 210000) 摘 要 深度強(qiáng)化學(xué)習(xí)是人工智能領(lǐng)域的一個(gè)新的研究熱點(diǎn).它以一種通用的形式將深度學(xué)習(xí)的感知能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,并能夠通過端對(duì)端的學(xué)習(xí)方式實(shí)現(xiàn)從原始輸入到輸出的直接控制.自提出以來,在許多需要感知高維度原始輸入數(shù)據(jù)和決策控制的任務(wù)中,深度強(qiáng)化學(xué)習(xí)方法已經(jīng)取得了實(shí)質(zhì)性的突破.該文首先闡述了 3 類主要

5、的深度強(qiáng)化學(xué)習(xí)方法,包括基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)、基于策略梯度的深度強(qiáng)化學(xué)習(xí)和基于搜索與監(jiān)督的深度強(qiáng)化學(xué)習(xí);其次對(duì)深度強(qiáng)化學(xué)習(xí)領(lǐng)域的一些前沿研究方向進(jìn)行了綜述,包括分層深度強(qiáng)化學(xué)習(xí)、多任務(wù)遷移深度強(qiáng)化學(xué)習(xí)、多智能體深度強(qiáng)化學(xué)習(xí)、基于記憶與推理的深度強(qiáng)化學(xué)習(xí)等.最后總結(jié)了深度強(qiáng)化學(xué)習(xí)在若干領(lǐng)域的成功應(yīng)用和未來發(fā)展趨勢(shì). 關(guān)鍵詞 人工智能;深度學(xué)習(xí);強(qiáng)化學(xué)習(xí);深度強(qiáng)化學(xué)習(xí) 中圖法分類號(hào) TP18 論文引用格式 論文引用格式:

6、 劉全,翟建偉,章宗長(zhǎng),鐘珊,周倩,章鵬,徐進(jìn),深度強(qiáng)化學(xué)習(xí)綜述,2017,Vol.40,在線出版號(hào) No.1 LIU Quan, ZHAI Jian-Wei, ZHANG Zong-Zhang, ZHONG Shan, ZHOU Qian, ZHANG Peng, XU Jin, A Survey on Deep Reinforcement Learning, 2017,Vol.40,Online Publishing No.1 A

7、Survey on Deep Reinforcement Learning LIU Quan ZHAI Jian-Wei ZHANG Zong-Zhang ZHONG Shan ZHOU Qian ZHANG Peng XU Jin 1)(School of Computer Science and Technology, Soochow University, Suzhou, Jiangsu 215006) 2)(Coll

8、aborative Innovation Center of Novel Software Technology and Industrialization, Nanjing 210000) Abstract Deep reinforcement learning (DRL) is a new research hotspot in the artificial intelligence community. By using a g

9、eneral-purpose form, DRL integrates the advantages of the perception of deep learning (DL) and the decision making of reinforcement learning (RL), and gains the output control directly based on raw inputs by the end-to-e

10、nd learning process. DRL has made substantial breakthroughs in a variety of tasks requiring both rich perception of high-dimensional raw inputs and policy control since it was proposed. In this paper, we systematically d

11、escribe three main categories of DRL methods. Firstly, we summarize value-based DRL methods. The core idea behind them is to approximate the value function by using deep neural networks which have strong ability of perce

12、ption. We introduce an epoch-making value-based DRL method called Deep Q-Network (DQN) and its variants. These variants are divided into two categories: improvements of training algorithm and improvements of model archit

13、ecture. The first category includes Deep Double Q-Network (DDQN), DQN based on advantage learning technique, and DDQN with proportional prioritization. The second one includes Deep Recurrent Q-Network (DRQN) and a method

14、 based on Dueling Network architecture. In general, value-based DRL methods are good at dealing with large-scale problems with discrete action spaces. We then summarize policy-based DRL methods. Their powerful idea is to

15、 use deep neural networks to parameterize the policies and 論文在線出版號(hào) No.1 劉全等:深度強(qiáng)化學(xué)習(xí)綜述 3 基于值函數(shù)的DRL基于策略梯度的DRL基于搜索與 監(jiān)督的DRLDLRLDRL的起步DRL的成功應(yīng)用DRL的發(fā)展趨勢(shì)分層DRL多任務(wù)遷移DRL多智能體DRL基于記憶與推理的DRLDRL中探索與利用的平衡問題1、預(yù)備知識(shí)2、主要方法 3、前沿研究4、成功應(yīng)用和發(fā)展趨

16、勢(shì)圖 2 本文的整體架構(gòu) 2 預(yù)備知識(shí) 預(yù)備知識(shí) 2.1 深度學(xué)習(xí) DL 的概念源于人工神經(jīng)網(wǎng)絡(luò) (Artificial Neural Network ,ANN ).含多隱藏層的多層感知器(Multi-Layer Perceptron, MLP) 是 DL 模型的一個(gè)典型范例.DL 模型通常由多層的非線性運(yùn)算單元組合而成.其將較低層的輸出作為更高一層的輸入,通過這種方式自動(dòng)地從大量訓(xùn)練數(shù)據(jù)中學(xué)習(xí)抽象的特征表示,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征

17、[28].與淺層網(wǎng)絡(luò)相比,傳統(tǒng)的多隱藏層網(wǎng)絡(luò)模型有更好的特征表達(dá)能力, 但由于計(jì)算能力不足、 訓(xùn)練數(shù)據(jù)缺乏、梯度彌散等原因,使其一直無法取得突破性進(jìn)展.直到 2006 年,深度神經(jīng)網(wǎng)絡(luò)的研究迎來了轉(zhuǎn)機(jī). Hinton 等人[29]提出了一種訓(xùn)練深層神經(jīng)網(wǎng)絡(luò)的基本原則:先用非監(jiān)督學(xué)習(xí)對(duì)網(wǎng)絡(luò)逐層進(jìn)行貪婪的預(yù)訓(xùn)練,再用監(jiān)督學(xué)習(xí)對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行微調(diào).這種預(yù)訓(xùn)練的方式為深度神經(jīng)網(wǎng)絡(luò)提供了較理想的初始參數(shù),降低了深度神經(jīng)網(wǎng)絡(luò)的優(yōu)化難度.此后幾年,各種

18、 DL 模型被相繼提出.包括堆棧式自動(dòng)編碼器[30-31](Stacked Auto-Encoder,SAE)、限制玻爾茲曼機(jī) [32-33](Restricted Boltzmann Machine,RBM)、深度信念網(wǎng)絡(luò)[33-34](Deep Belief Network,DBN)、循環(huán)神經(jīng)網(wǎng)絡(luò) [35-36](Recurrent Neural Network,RNN)等. 隨著訓(xùn)練數(shù)據(jù)的增長(zhǎng)和計(jì)算能力的提升,卷積神經(jīng)網(wǎng)絡(luò)(Con

19、volutional Neural Network,CNN)開始在各領(lǐng)域中得到廣泛應(yīng)用.Krizhevsky 等人[2]在2012年提出了一種稱為AlexNet的深度卷積神經(jīng)網(wǎng)絡(luò),并在當(dāng)年的 ImageNet 圖像分類競(jìng)賽中,大幅度降低了圖像識(shí)別的 top-5 錯(cuò)誤率.此后,卷積神經(jīng)網(wǎng)絡(luò)朝著以下 4 個(gè)方向迅速發(fā)展: (1)增加網(wǎng)絡(luò)的層數(shù).在 2014 年,視覺幾何組(Visual Geometry Group,VGG)的 Simony

20、an等人[37]提出了 VGG-Net 模型,進(jìn)一步降低了圖像識(shí)別的錯(cuò)誤率.He 等人[38]提出了一種擴(kuò)展深度卷積神經(jīng)網(wǎng)絡(luò)的高效方法; (2) 增加卷積模塊的功能. Lin 等人[39]利用多層感知卷積層替代傳統(tǒng)的卷積操作,提出了一種稱為 Network in Network(NIN)的深度卷積網(wǎng)絡(luò)模型.Szegedy 等人[40]在現(xiàn)有網(wǎng)絡(luò)模型中加入一種新穎的 Inception 結(jié)構(gòu),提出了 NIN 的改進(jìn)版本GoogleNet,

21、并在 2014 年取得了 ILSVRC 物體檢測(cè)的冠軍; (3)增加網(wǎng)絡(luò)層數(shù)和卷積模塊功能.He 等人[41]提出了深度殘差網(wǎng)絡(luò)(Deep Residual Network,DRN),并在 2015 年取得了 ILSVRC 物體檢測(cè)和物體識(shí)別的雙料冠軍.Szegedy 等人[42]進(jìn)一步將Inception 結(jié)構(gòu)與 DRN 相結(jié)合, 提出了基于 Inception結(jié)構(gòu)的深度殘差網(wǎng)絡(luò)(Inception Residual Network,

22、IRN).此后,He 等人[43]提出了恒等映射的深度殘差 網(wǎng) 絡(luò) ( Identify Mapping Residual Network ,IMRN),進(jìn)一步提升了物體檢測(cè)和物體識(shí)別的準(zhǔn)確率; (4)增加新的網(wǎng)絡(luò)模塊.向卷積神經(jīng)網(wǎng)絡(luò)中加入循環(huán)神經(jīng)網(wǎng)絡(luò)[44](Recurrent Neural Network,RNN) 、 注意力機(jī)制[45] (Attention Mechanism, AM)等結(jié)構(gòu). 2.2 強(qiáng)化學(xué)習(xí) RL 是一種從

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論