ページ

ホーム
ウェブページについて
訳語
講義ビデオ
課題とコースプロジェクト

講義ノート

MDPでのプランニング
バッチ強化学習
- 17. イントロダクション
- 18.有限MDPのサンプル効率
オンライン強化学習

Website of the course CMPUT 653: Theoretical Foundations of Reinforcement Learning.

MDPでのプランニング

Table of contents

1. 導入
2. 基本定理
3. 価値反復法と最初の下界
4. 方策反復法
5. ローカルプランニング - パート I.
6. ローカルプランニング - Part II.
7. 関数近似
8. 近似方策反復
9. クエリ効率の良いプランニングの限界
10. Planning under $q^*$ realizability
11. $v^*$実現可能性のもとでのプランニング (テンソルプラン I.)
12. TensorPlan and eluder sequences
13. APIからPolitexへ
14. Politex
15. 方策探索から方策勾配法へ
16. 方策勾配法

Copyright © 2020 RL Theory.

Page last modified: Dec 24 2020.