MDPでのプランニング
Table of contents
- 1. 導入
- 2. 基本定理
- 3. 価値反復法と最初の下界
- 4. 方策反復法
- 5. ローカルプランニング - パート I.
- 6. ローカルプランニング - Part II.
- 7. 関数近似
- 8. 近似方策反復
- 9. クエリ効率の良いプランニングの限界
- 10. Planning under $q^*$ realizability
- 11. $v^*$実現可能性のもとでのプランニング (テンソルプラン I.)
- 12. TensorPlan and eluder sequences
- 13. APIからPolitexへ
- 14. Politex
- 15. 方策探索から方策勾配法へ
- 16. 方策勾配法