版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、增強學(xué)習(xí)增強學(xué)習(xí)ReinfcementLearning經(jīng)典算法梳理經(jīng)典算法梳理1:policyvalueiteration前言前言就目前來看,深度增強學(xué)習(xí)(DeepReinfcementLearning)中的很多方法都是基于以前的增強學(xué)習(xí)算法,將其中的valuefunction價值函數(shù)或者Policyfunction策略函數(shù)用深度神經(jīng)網(wǎng)絡(luò)替代而實現(xiàn)。因此,本文嘗試總結(jié)增強學(xué)習(xí)中的經(jīng)典算法。本文主要參考:1ReinfcementLearn
2、ing:AnIntroduction;2ReinfcementLearningCoursebyDavidSilver1預(yù)備知識預(yù)備知識對增強學(xué)習(xí)有所理解,知道MDP,Bellman方程詳細可見:DeepReinfcementLearning基礎(chǔ)知識(DQN方面)很多算法都是基于求解Bellman方程而形成:ValueIterationPolicyIterationQLearningSARSA2PolicyIteration策略迭代策略迭
3、代PolicyIteration的目的是通過迭代計算valuefunction價值函數(shù)的方式來使policy收斂到最優(yōu)。PolicyIteration本質(zhì)上就是直接使用Bellman方程而得到的:那么PolicyIteration一般分成兩步:PolicyEvaluation策略評估。目的是更新ValueFunctionPolicyImprovement策略改進。使用greedypolicy產(chǎn)生新的樣本用于第一步的策略評估。然后改變成迭
4、代形式valueiteration的算法如下:那么問題來了:PolicyIteration和ValueIteration有什么本質(zhì)區(qū)別?為什么一個叫policyiteration,一個叫valueiteration呢?原因其實很好理解,policyiteration使用bellman方程來更新value,最后收斂的value即vπ是當(dāng)前policy下的value值(所以叫做對policy進行評估),目的是為了后面的policyimpro
5、vement得到新的policy。而valueiteration是使用bellman最優(yōu)方程來更新value,最后收斂得到的value即v?就是當(dāng)前state狀態(tài)下的最優(yōu)的value值。因此,只要最后收斂,那么最優(yōu)的policy也就得到的。因此這個方法是基于更新value的,所以叫valueiteration。從上面的分析看,valueiteration較之policyiteration更直接。不過問題也都是一樣,需要知道狀態(tài)轉(zhuǎn)移函數(shù)p
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 增強學(xué)習(xí)reinforcementlearning經(jīng)典算法梳理
- Multi-Agent Reinforcement Learning Through Weighted Experience Sharing.pdf
- deep reinforcement learning hands-on - apply modern rl methods, with deep q-netw
- Q-learning強化學(xué)習(xí)算法改進及其應(yīng)用研究.pdf
- 基于增強學(xué)習(xí)算法的智能排課模型.pdf
- 基于字典學(xué)習(xí)的語音增強算法研究.pdf
- 14只債轉(zhuǎn)股經(jīng)典案例全面梳理
- deep learning學(xué)習(xí)筆記整理系列
- Q_learning強化學(xué)習(xí)算法的改進及應(yīng)用研究.pdf
- 經(jīng)典算法
- q何謂學(xué)習(xí)(learning)與教學(xué)(instruction)
- 向騰訊學(xué)習(xí)騰訊q-learning
- 學(xué)習(xí)與記憶(learning & memory)
- 基于增強學(xué)習(xí)的靈巧手控制算法及其應(yīng)用.pdf
- 經(jīng)典算法(c)
- E-learning中基于聚類算法的多維度學(xué)習(xí)社區(qū)的研究.pdf
- 市民E-Learning在線學(xué)習(xí)平臺.pdf
- 圖像增強算法綜述
- 企業(yè)e-learning學(xué)習(xí)平臺建設(shè)方案
- challenge based learning 挑戰(zhàn)性學(xué)習(xí)(基于挑戰(zhàn)的學(xué)習(xí))
評論
0/150
提交評論