Link Search Menu Expand Document

CMPUT 653: Theoretical Foundations of Reinforcement Learning

この講義の目的は、しっかりとした強化学習理論の基礎を学生たちが学ぶことです。 (そして、「理論をやる」というのがコンピュータサイエンスにおいて何を意味するかを学んでもらうことです)。 トピックは基礎的な内容 (マルコフ決定過程とその特別な場合) に加え、以下に挙げた、RLにおける中心的な問題設定の解法になります。

これらの各問題設定において、どのような点がアルゴリズム的に難しいのか、そしてそれを解決するためのコアとなるアイデアを講義で説明します。特に、以下のようなトピック、アイデアそしてアルゴリズムを説明します。

  • プランニング/シミュレーション最適化における複雑性・関数近似を用いた大規模プランニング
  • 関数近似あり・なしの場合のバッチ強化学習のサンプル複雑性
  • 効率的なオンライン強化学習 — 楽観的探索の役割とその限界・関数近似を用いた大規模な問題への拡張

この講義では、いくつかの深層強化学習アルゴリズムについて触れます。 (どんなときにそれらがうまく動くと期待できるかという点にフォーカスを置きながら) ですが、講義のメインフォーカスは 深層強化学習ではない ということを強調しておきます。

必要な事前知識

この講義を受講する学生は、基本的な確率論・集中不等式・線形代数・凸最適化を理解していると仮定します。これらは Bandit Algorithms book の第2章、3章、5章、7章、26章、そして38章でカバーされています。より広範な領域をカバーしていますが A Second Course in Probability Theory も強くおススメします。 この本はオンライン版と印刷版があります。この講義にもっとも関連しているのは、1章、3章、4章、そして5章となります。

解析学の基礎 (例えば空間の完備性、距離空間など) を復習するのもいいかもしれません、私たちが最初に説明する結果はバナッハの不動点定理に基づくので。そういった内容は、例えば、 Csaba’s “little” RL book の付録Aで説明されています。 (日本語版もあります。) また、Wikipediaのバナッハの不動点定理に関するページも悪くないです。

講師陣

講義ノート

Bandit Algorithms と同じように、ブログ (このウェブページ) を作り、講義ノートや講義に必要な関連資料はそこに投稿していきます。

翻訳者

このウェブページは以下の日本強化学習若手の会の有志による翻訳です。翻訳にあたって、講義に関する情報等の不必要な部分と (画像内等で) 翻訳不可能な部分は翻訳しておりません。翻訳に関するお問い合わせは小津野までお願いします。また、翻訳を手伝ってくださる方がいらっしゃいましたら、小津野までお願いします。

キーワード: 強化学習の理論、強化学習、理論的強化学習