22. イントロダクション

強化学習におけるオンライン学習とは，学習者が（はじめは）未知のMDPの中に置かれている状況を意味する． MDPと相互作用することにより，学習者は未知の遷移と報酬関数に関するデータを集める．学習者の目標は，可能な限り多くの報酬を集める，もしくは最適に近い方策を出力することである．プランニングとの違いは，学習者は真のMDPにアクセスできないことである．バッチ強化学習とは異なり，学習者はどのような行動を実行するかを決定できる．重要な点として，これは学習者の行動が学習者が得られるデータに影響を与えることを意味する (これは時折 “closed loop”と呼ばれる）．

学習者が自身のデータを創り出さなければいけないという事実は，重要な決断を迫る: 学習者は，将来の意思決定を改善する更なるデータを集めるために，報酬を犠牲にするべきだろうか？もしくは，現時点で最適と思われる行動に従うべきだろうか？明らかに，学習者が低い報酬の行動を頻繁に選択する場合，過度な探索にはコストがかかる．一方で，限られたデータの元で最適と思われる行動を選択することには，よりよい報酬を見逃すリスクがある．この分野において，これは 探索と活用のジレンマ として知られている．

探索と活用のジレンマは，MDPの設定に特有のものではない．この現象は，よりシンプルな（多腕）バンディットの設定で既に現れる（つまり，1つの状態と確率的な報酬を持つMDP）．

以下では，有限ホライゾン，エピソード的で (割引なしの）MDP $M = (\mathcal{S},\mathcal{A},P,r, \mu)$ について考える．学習者は，このMDPと長さ $H > 0$の $K$エピソードについて相互作用を行う．各エピソード $k=1\,\dots,K$ のはじめ，初期状態は初期状態分布からサンプルされる: $S_0^{k} \sim \mu$．$k$ 番目のエピソードで集められたデータは，以下のように表される．

\[S_0^{(k)}, A_0^{(k)}, R_1^{(k)}, S_1^{(k)} A_1^{(k)}, R_2^{(k)}, S_2^{(k)}, \dots S_{H-1}^{(k)}, A_{H-1}^{(k)},R_H^{(k)}, S_H^{(k)}\]

ただし，$A_h^{k}$ はステップ $h$ で学習者によって選択された行動であり，$S_{h+1}^{(k)} \sim P_{A_h^{(k)}}(S_h^{(k)})$ は次の状態，$R_{h+1}^{(k)} \sim r_{A_h^{(k)}}(S_h^{(k)})$ は (おそらく確率的な）報酬を意味する．

このモデルは，特殊な例としていくつかの重要な設定を含んでいる．特筆すべきものとして，

$H=1$ は文脈付きバンディットの設定に一致する．ただし，”文脈” $S_0^{(k)}$ は分布 $\mu$ からサンプルされる．
$H=1$ かつ $S=1$ は有限多腕バンディットの設定に一致する．

サンプル複雑性とリグレット: 学習者はどのくらい良い？

学習者のゴールは，可能な限り多くの報酬を集めることである．エピソード $k$ で学習者が集めた報酬を $V_k = \sum_{h=0}^{H-1} r_{A_h^{(k)}}(S_h^{(k)})$ で表す．総報酬は $\sum_{k=1}^K V_k$ である．分析のために，正規化を導入すると便利である: 総報酬について直接議論する代わりに，学習者をそのMDPの最適方策の価値 $v_0^*(S_0^{(k)})$ と比較する．これに従い，以下のように リグレット を定義する．

\[R_K = \sum_{k=1}^K \big(v_0^*(S_0^{(k)}) - V_k\big)\]

$K \rightarrow \infty$ で $\mathbb{E}[R_K/K]\rightarrow 0$ になる時，学習者は線形以下の期待リグレットを持つと言う．線形以下のリグレットは，エピソードの数が増えるにつれて，学習者の平均報酬は最適価値 $v_0^*(\mu)$ に近づくことを意味する．間違いなく望ましい特性だ!

小さなリグレットを持つ学習者の構築に移る前に，他にも目的関数があることを簡単に述べておく．最も典型的な代替案はPAC，すなわち probably approximately correct である．学習者がエピソード $K$ で停止し，少なくとも $1-\delta$ の確率で $v_0^{*}(s_0^{(k)}) - \mathbb{E}[V_K] \leq \epsilon$ であるような方策を出力する時，$(\epsilon,\delta)$-PACであると言う．PACの上界については，既にプランニングの文脈で議論した．

リグレットの上界を抑えることとの違いは，最初の $K-1$ エピソードにおいて，学習者は最適でない行動をとることに “支払う” ものはないことである．これは時折 純粋探索問題 と呼ばれる．ここで，線形以下のリグレットを達成する学習者はPAC学習者に変換可能であることに注意されたい (notesのところで議論する)．しかしながら，これはPACのフレームワークにおいて最適でない（大きい）$K$ を導く．

$\epsilon$ - greedy

リグレットの小さなアルゴリズムをデザインするためには数多くのアイデアがある．まず，”greedyな” エージェントは簡単に失敗することに注意: 一部の経験推定に基づく最適な行動に従うと，最適でない方策に囚われることがある (このようなことが起こる例を考えてみよう!)．

簡単な修正は，少しの “強制的な” 探索を追加することである: （小さな）確率 $\epsilon$ で，行動を一様ランダムに選ぶ．これにより，最終的には全ての行動からサンプルを集めて，推定を改善することができる．確率 $(1-\epsilon)$ で，現在の推定から見て最適と思われる “greedyな” 選択に従う．これが $\epsilon$-greedyという名前の由来である．

$\epsilon$-greedyが収束することを示すのは可能な場合が多い．探索確率 $\epsilon$ を慎重に選ぶことで，有限MDPにおいてリグレットは高々 $R_K \leq \mathcal{O}(K^{2/3}) $ であることを示すことができる．のちに議論するように，わずか $\mathcal{O}(K^{1/2})$ のリグレットを達成するアルゴリズムが複数ある．すなわち，$\epsilon$-greedy はリグレットを最小化するための最適なアルゴリズムではない．

驚くべきことではないが，このようなタイプの探索は最適ではない場合がある．$\epsilon$-greedyが最適方策に到達するまでに（状態の数に対して）指数時間かかる例を構築することは容易である．例を探してみてほしい (ヒント: エージェントが最適でない行動を探索するたびに，開始状態に戻されるMDPを構築してみよう)．

良い点として，$\epsilon$-greedy は非常にシンプルで，より複雑なシナリオでも簡単に用いることができる．実際，理論的に根拠のある探索スキーマを適用するのが困難な，ニューラルネットワークを関数近似として用いた場合においては，しばしば用いられている．

楽観主義の原則

リグレットを最小化するアルゴリズムを構築するためのよくある技法は，不確実性に直面したときの楽観主義 である．このアイデアをフォーマルに定義するために，$\mathcal{M}$ がありうる環境の集合であるとする（例えば，有限MDPの集合）．この集合の中に真の環境が含まれているという実現可能性の仮定を置く: $M^* \in \mathcal{M}$ ．ラウンド $1,\dots, k-1$ でデータを獲得した後，学習者はそれらの観察を尤もらしいモデルの集合 $\mathcal{M}_k\subset \mathcal{M}$ を計算するために用いる．尤もらしいモデルの集合は，高い確率で真のモデルを含んでいる．常に必要なことではないが，縮小していく集合の列を考えると便利である: $\mathcal{M} \supset\mathcal{M}_1 \supset\mathcal{M}_2 \supset \cdots \supset\mathcal{M}_k$．これは，より多くのデータを取得するごとに，学習者は観察されたデータを統計的に生み出しにくいモデルを排除できることを意味している．

楽観主義の原則は，全ての尤もらしいモデルの中で最大の報酬を達成する方策に従って行動することである．すなわち，

\[\begin{align} \label{eq:opt-policy} \pi_k = \arg\max_{\pi} \max_{M \in \mathcal{M}_k} v_M^\pi \end{align}\]

である．この時点では，なぜこれが効率的な（リグレットの小さな）アルゴリズムを導くのかは明らかではない．アイデアは，学習者が環境に関するデータを体系的に取得することである．例えば，データと楽観的なモデル $\tilde M_k = \arg\max_{M \in \mathcal{M}} \max_\pi v_M^\pi$ が矛盾した時，$\tilde M_k \notin \mathcal{\mathcal{M}}_{k+1}$ は将来の尤もらしいモデルの集合から排除される．結果として，学習者は次のラウンドでは異なる方策を選択することになる．

一方で，学習者は $M^{*} \in \mathcal{M}_k$ を高い確率で保証することができる．このケースにおいて，ギャップ $v_{\tilde M_k}^{\pi_k} - v_{M^{*}}^{*} \geq 0$ が小さいことを示すことは多くの場合可能である（より詳細には，$\mathcal{M}$ の”サイズ”に依存する定数を持つ，オーダー $\mathcal{O}(t^{-1/2})$ の統計的推定誤差のように振る舞う）．

最適化問題 $\eqref{eq:opt-policy}$ が効率的に解けるのかについても考える必要がある．これは必ずしもそうではない．多くの場合，楽観的な方策を実現するためにヒューリスティックに頼るか，トンプソンサンプリング（以下を参照）などの他の探索手法を使用する必要がある．

勿論，学習者のリグレットがどれくらいになるかは，目の前の具体的な設定によって異なる．次の講義では，楽観主義を利用して有限MDPのオンライン学習アルゴリズムを設計（および分析）する方法について説明する．この分野では，多くの設定で，楽観主義の原則を用いたアルゴリズムを使用した論文が多数出版されている．しかし，これは楽観主義が万能のツールであることを意味しない．より最近の文献では，楽観主義の原則の限界も指摘されており，代わりに他の設計アイデアが提案されている．

Notes

その他の探索技法

他の特筆するべき探索手法は以下:

Phased-Elimination と Experimental Design
トンプソンサンプリング
Information-Directed Sampling (IDS) と Estimation-To-Decisions (E2D)

References

以下の論文は，どのようにしてリグレットとPAC上界を変換するのかについての詳細を述べている．

Dann, C., Lattimore, T., & Brunskill, E. (2017). Unifying PAC and regret: Uniform PAC bounds for episodic reinforcement learning. Advances in Neural Information Processing Systems, 30. [link]