23. テーブル形式のMDP

PDF Version

この講義では, 有限ホライゾンエピソディックMDPの設定に対するオンライン学習アルゴリズムを解析する　. $M=(\mathcal{S}, \mathcal{A}, P^*, r, \mu, H)$の各値を有限状態空間$\mathcal{S}$, 有限行動空間$\mathcal{A}$, 未知の遷移行列$P^*$, 既知の報酬関数$r_a(s) \in [0,1]$と初期状態分布$\mu$とエピソード長$H \ge 1$とする.　$P^*$における上付き文字の星印は真の環境の繊維行列とアルゴリズムや解析の中で現れる他の環境(例, 推定された環境)の遷移行列を区別するために使用する. 報酬関数$r$が既知であるという前提は簡略化が目的である.　実際, (サンプル複雑度とアルゴリズムの設計に関しての)困難さの大半は遷移確率が不明であることに由来する.

我々は有限ホライゾン設定に焦点を当てる. この設定では, 学習者はMDPと1エピソードあたり$H \ge 1$として$k=1,\dots, K$ エピソードにわたる相互作用を行う.　全てではないが大半の考えは無限ホライゾン割引付きの設定や平均報酬設定に変換することができる.

リグレットは以下の式で定義される:

\[R_K = \sum_{k=1}^K v_0^*(S_0^{(k)}) - V_k\]

ここで, $V_k = \sum_{h=0}^{H-1} r_{A_h^{(k)}}(S_h^{(k)})$.

UCRL: Upper Confidence Reinforcement Learning

UCRLアルゴリズムは楽観性の原理を使用する. このため, 我々は実行可能なモデルの集合を定義する必要がある. 最初に, ラウンド$1,\dots, k-1$のデータを用いた最大尤度の推定値を定義する:

\[P^{(k)}_a(s,s') = \frac{N_k(s,a,s')}{1 \vee N_k(s,a)}\]

定義では表記$a \vee b = \max(a,b)$, 以下の経験的なカウントを利用する:

\[\begin{align*} N_k(s,a) &= \sum_{k'<k}\sum_{h<H} \mathbb{I}(S_h^{(k)}=s,A_h^{(k)}=a)\\ N_k(s,a,s') &= \sum_{k'<k}\sum_{h<H} \mathbb{I}(S_h^{(k)}=s,A_h^{(k)}=a,S_{h+1}^{(k)}=s') \end{align*}\]

信頼集合を以下で定義する.

\[C_{k,\delta} = \{ P_a(s)\,\, :\, \,\forall s,a\,\, \|P_a^{(k)}(s) - P_a(s)\|_1 \leq \beta_\delta(N_k(s,a)) \}\]

ここで $\beta_\delta : \mathbb{N} \rightarrow (0,\infty)$ という関数はこの後すぐに実際に当てはめる値を示すことになる. $\beta_\delta$を選ぶ目標は以下のこと保証することである.

$P^* \in C_{k,\delta}$を全ての$k=1,\dots,K$について少なくとも確率$1-\delta$で満たす.
$C_{k,\delta}$ が”大きすぎない”

二つ目の点は証明の中で正式に現れるが, 統計的な観点からは, 信頼集合が可能な限り効率的な集合になるようにしたい.

信頼集合を用いて, 今となってはUCRLアルゴリズムを導入できる.

UCRL (Upper confidence reinforcement learning):

エピソード$k=1,\dots,K$内では以下の手順を行う.

信頼集合$C_{k,\delta}$を計算する
$\tilde \pi_k = \arg\max_\pi \max_{P \in C_{k,\delta}} v_P^\pi$を満たす方策を使用する
エピソードのデータ${S_0^{(k)}, A_0^{(k)}, S_1^{(k)}, \dots, S_{H-1}^{(k)}, S_{H-1}^{(k)}, S_H^{(k)}}$を観測する.

観測データから報酬を除去していることを述べておく. 報酬ベクトル$r_a(s)$は既知なため, 常に状態と行動の系列から報酬を再計算することができる.

差し当たり, 楽観的方策$\pi_k$を効率的に計算する方法をざっと見ていくが, この点に後ほど戻ってくる.

Step 1: 信頼集合を定義する

Lemma (L1-confidence set): $\beta_\delta(u) = 2\sqrt{\frac{S \log(2) + \log(u(u+1)SA/\delta)}{2u}}$として信頼集合を以下の式で定義する.

\[C_{k,\delta} = \{ P_a(s)\,\, :\, \,\forall s,a\,\, \|P_a^{(k)}(s) - P_a(s)\|_1 \leq \beta_\delta(N_k(s,a)) \}\]

この時, 少なくとも確率$1-\delta$で以下の式を満たす

\[\forall k \geq 1, \quad P^* \in C_{k,\delta}\]

Proof: $s,a$が固定されているとして, $X_v \in \mathcal{S}$を用いて$v^{\text{th}}$回$(s,a)$を訪れた時の次の状態を表記する. $(s,a)$が合計で$u$回訪問されたと想定する.　この時,　$P_{u,a}(s,s') = \frac{1}{u} \sum_{v=1}^u \mathbb{I}(X_v = s')$.

マルコフ性は$(X_v)_{v=1}^{u}$がi.i.d.であることを示唆する. 任意のベクトル $p \in \mathbb{R}^{S}$について1ノルムを$\|p\|_1 = \sup_{\|x\|_\infty \leq 1} \langle p,x\rangle$で書くことができる. したがって,

\[\|P_{u,a}(s) - P_a^*(s)\|_1 = \max_{x \in \{\pm 1\}^S} \langle P_{u,a}(s) - P_a^*(s), x \rangle\]

何らかの$x \in \{\pm1\}^S$で固定する.

\[\begin{align*} \langle P_{u,a}(s) - P_a^*(s), x \rangle &= \frac{1}{u} \sum_{v=1}^u \sum_{s'} x_{s'}\big(\mathbb{I}(X_v = s') - P_a^*(s,s')\big)\\ &=\frac{1}{u} \sum_{v=1}^u \Delta_v \end{align*}\]

ここで最後の式において, $\Delta_v = \sum_{s’ \in \mathcal{S}} x_{s’}\big(\mathbb{I}(X_v = s’) - P_a^*(s,s’)\big)$と定義する.

$\mathbb{E}[\Delta_v]=0$, $|\Delta_v| \leq 1$, そして $(\Delta_v)_{v=1}^u $ はi.i.d.を満たす確率変数である. したがって, Hoeffdingの不等式が少なくとも確率 $ 1-　\delta $で以下のことを示唆する,

\[\frac{1}{u} \sum_{v=1}^u \Delta_v \leq 2\sqrt{\frac{\log(1/\delta)}{2u}}\]

次に$\vert\{\pm1\}^S\vert = 2^S$であり, したがって全ての$x \in \{\pm1\}^S$に対して一様バウンドをとり, 少なくとも確率$1-\delta$で以下の不等式を得る,

\[\|P_{u,a}(s) - P_a^*(s)\|_1 \leq 2\sqrt{\frac{S \log(2) + \log(1/\delta)}{2u}}\]

最終ステップでは, $s \in \mathcal{S}$, $a \in \mathcal{A}$ そして$u \geq 1$に対して一様バウンドをとる. 一様バウンドを自然数の無限集合に対して取るために, 次の簡潔なトリックを使用する.

\[\sum_{u=1}^\infty \frac{\delta}{u(u+1)} = \delta\]

これは$\frac{1}{u(u+1)} = \frac{1}{u} - \frac{1}{u+1}$という観測と畳み込み級数から得られる. したがって, 少なくとも確率$1-\delta$で, 任意の$u \geq 1$, $s \in \mathcal{S}$ および $a \in \mathcal{A}$について以下の式が成立する.

\[\|P_{u,a}(s) - P_a^*(s)\|_1 \leq 2\sqrt{\frac{S \log(2) + \log(u(u+1)SA/\delta)}{2u}}\]

最後にこの主張は$P_a^{(k)}(s) = P_{N_k(s,a),a}(s)$で結びとなる. $\qquad\blacksquare$

Step 2: Bounding the regret

Theorem (UCRL Regret): UCRLのリグレットは信頼集合$C_{k,\delta}$が少なくとも確率$1-3\delta$で以下の式を満たすものとして定義する:

\[R_K \leq 4 c_\delta H\sqrt{SAHK} + 2 c_{\delta} H^2 SA + 3H \sqrt{\frac{HK}{2} \log(1/\delta)}\]

ここで, $c_{\delta} = \sqrt{2 S \log(2) + \log(HK(HK+1)SA/\delta)}$. 特に$K$が十分に大きい場合, 定数と対数で抑えることができて, 以下の式を得ることができる.

\[R_K \leq \mathcal{\tilde O}\left( H^{3/2} S\sqrt{AK \log(1/\delta)} \right)\]

Proof: $\pi_k$を用いて方策UCRLは以下の式で定義される.

\[\pi_k = \arg\max_{\pi} \max_{P \in C_{k,\delta}} v_{0,P}^\pi(S_0^{(k)})\]

さらに$\tilde P^{(k)} = \arg\max_{P \in C_{k,\delta}} v_{0,P}^*(S_0^{(k)})$を楽観的モデルとする.

以下では, 事象 $\mathcal{E} = \cap_{k\geq 1} C_{k,\delta}$を扱っているという前提を置く. 過去の補題より, $\mathbb{P}(\mathcal{E}) \geq 1- \delta$.

$k \geq 1$で固定して, ラウンド$k$におけるリグレットを以下のように分解する:

\[\begin{align*} v_0^*(S_0^{(k)}) - V_k =\,\, & \underbrace{v_{0,P^*}^*(S_0^{(k)}) - v_{0,\tilde P_k}^*(S_0^{(k)})}_{\text{(I)}}\\ &+\,\, \underbrace{v_{0,\tilde P_k}^{\pi_k}(S_0^{(k)}) - v_{0, P^*}^{\pi_k}(S_0^{(k)})}_{\text{(II)}}\\ &+\,\, \underbrace{v_{0, P^*}^{\pi_k}(S_0^{(k)}) - V_k}_{\text{(III)}} \end{align*}\]

$v_{0,\tilde P_k}^*(S_0^{(k)}) = v_{0,\tilde P_k}^{\pi_k}(S_0^{(k)})$を使用する. これは定義より, $\pi_k$は$\tilde P_k$に対する最適方策であることにより成立する.

第1項は容易にバウンドできる. これは楽観性の原理を使用する重要なステップである. $P^* \in C_{k,\delta}$と$\tilde P_k$の選択より$\text{(I)} \leq 0$となる. 特に, グレットのバウンドから(未知の)最適方策に対する依存を既に取り除いている.

最後の項は比較的制御が容易である. $\xi_k = \text{(III)}$とする. 価値関数の定義より$\mathbb{E}[ \xi_k \vert S_0^{(k)} ] = 0$ と $\vert\xi_k\vert \leq H$を得る. したがって, $\xi_k$はノイズのように振る舞う. もしも$\xi_k$がi.i.dの変数であれば, Hoeffdingの不等式を直接適用して$\sum_{k=1}^K \xi_k$をバウンドできる.

系列$\xi_k$は似たようなバウンドを得ることができる性質を持っている.

\[\mathcal{F}_k = \{S_0^{(l)}, A_0^{(l)}, S_1^{(l)}, \dots, S_{H-1}^{(l)}, S_{H-1}^{(l)}, S_H^{(l)}\}_{l=1}^{k-1}\]

をエピソード$k$の最初に学習者が利用可能なデータとする. そして価値関数の定義より, $\mathbb{E}[\xi_k\vert\mathcal{F}_k, S_0^{(k)}] = 0$.

この期待値に関する性質を持つ確率変数の系列$(\xi_k)_{k\geq 1}$はマルチンゲール差分列と呼ばれる. 幸運なことに, (平均がゼロの)i.i.d系列が持つ大半の性質はマルチンゲール差分列について示されている. Hoeffdingの不等式に類似した結果はAzuma-Hoeffdingの不等式と呼ばれる. 系列$\xi_k$に適用することで, Azuma-Hoeffdingは以下を示す.

\[\sum_{k=1}^K \xi_k \leq H \sqrt{\frac{K}{2} \log(1/\delta)}\]

リグレット分解の中の$\text{(II)}$項をバウンドする必要がある:

\[\text{(II)} = v_{0,P^*}^{\pi_k}(S_0^{(k)}) - v_{0, \tilde P^{(k)}}^{\pi_k}(S_0^{(k)})\]

ベルマン不等式を用いて, 方策$\pi$に対する価値関数を再帰的に計算する:

\[\begin{align*} v_{h,P}^{\pi} &= r^\pi + M_\pi Pv_{h+1,P}^\pi\,\,,\quad 0 \leq h \leq H-1\\ v_{H,P}^\pi &= 0 \end{align*}\]

二つのモデル$P^*$と$\tilde P^{(k)}$における方策$\pi_k$の価値の差分に対して次の簡略表記をを導入する:

\[\delta_h^{(k)}= v_{h,\tilde P^{(k)}}^{\pi_k}(S_h^{(k)}) -v_{h,P^*}^{\pi_k}(S_h^{(k)})\]

$\mathcal{F}_{h,k}$がエピソード$k$とステップ$h$までの全ての観測データを含むとする,　ここでは$S_h^k$も含まれるとする.ベルマン不等式を用いて, 以下のように書ける.

\[\begin{align*} \delta_h^{(k)} &= M_{\pi_k} \tilde P^{(k)} v_{h+1,\tilde P^{(k)}}^{\pi_k}(S_h^{(k)}) - M_{\pi_k} P^* v_{h+1,P^*}^{\pi_k}(S_h^{(k)}) \pm M_{\pi_k} P^*V_{h+1,\tilde P^{(k)}}(S_h^{(k)})\\ &= (M_{\pi^k}(\tilde P^{(k)} - P^*) v_{h+1, \tilde P^{(k)}}^{\pi_k})(S_h^{(k)}) + (M_{\pi_k}P^*(v_{h+1,\tilde P^{(k)}}^{\pi_k} - v_{h+1,P^*}^{\pi_k})(S_h^{(k)})\\ &\leq \|P_{A_h^{(k)}}^*(S_h^{(k)}) - \tilde P_{A_h^{(k)}}^{(k)}(S_h^{(k)}) \|_1 H+ \delta_{h+1}^{(k)} + \underbrace{\big(\mathbb{E}[\delta_{h+1}^{(k)}|\mathcal{F}_{h,k}] - \delta_{h+1}^{(k)}\big)}_{=:\eta_{h+1}^{(k)}}\\ &\leq 2 H \beta_\delta(N_k(S_h^{(k)}, A_h^{(k)})) + \delta_{h+1}^{(k)} + \eta_{h+1}^{(k)} \end{align*}\]

一つ目の不等式は任意のベクトル$w,v$で$\langle w,v\rangle \leq \|w\|_1 \|v\|_{\infty}$ と $\|v_{h+1,\tilde P^{(k)}}^{\pi_k}\|_\infty \leq H$となることを使用している. さらに$\pi_k$は決定論的な方策であり, したがって $M_{\pi_k} P(S_h^{(k)}) = P_{A_h^{(k)}}(S_h^{(k)})$. 二つ目の不等式は過去の補題における信頼集合の定義より次のようになる:

\[\begin{align*} &\|P_{A_h^{(k)}}^*(S_h^{(k)}) - \tilde P_{A_h^{(k)}}^{(k)}(S_h^{(k)}) \|_1 \\ &\leq \|P_{A_h^{(k)}}^*(S_h^{(k)}) - P_{A_h^{(k)}}^{(k)}(S_h^{(k)}) \|_1 + \|P_{A_h^{(k)}}^{(k)}(S_h^{(k)}) - \tilde P_{A_h^{(k)}}^{(k)}(S_h^{(k)}) \|_1\\ &\leq 2 \beta_\delta(N_k(S_h^{(k)}, A_h^{(k)})) \end{align*}\]

畳み込みと$\delta_H^{(k)} = 0$を用いて以下を得る.

\[\delta_0^{(k)} \leq \eta_1^{(k)} + \cdots + \eta_{H-1}^{(k)} + 2H \underbrace{\sum_{h=0}^{H-1}\beta_\delta(N_k(S_h^{(k)}, A_h^{(k)}))}_{\text{(IV)}}\]

$(\eta_h^{(k)})_{h=1}^{H-1}$はマルチンゲール差分列($\eta_h^{(k)}\vert \leq H$を満たす)でありAzuma-Hoeffdingによりバウンドされる:

\[\sum_{k=1}^K\sum_{h=1}^{H-1} \eta_h^{(k)} \leq 2H \sqrt{\frac{HK}{2}\log(1/\delta)}\]

$\text{(IV)}$をバウンドすることが残っている. このために次の代数的な補題を利用する:

補題

任意の系列 $m_1, \dots, m_k$ that satisfies $m_1 + \dots + m_k \geq 0$について、以下が成り立つ。

\[\sum_{k=1}^K \frac{m_k}{\sqrt{1 \vee (m_1 + \cdots + m_k)}} \leq 2 \sqrt{m_1 + \cdots + m_k}\]

補題の証明: $f(x) = 1/\sqrt{x}$とする。 $f(x)$ は $(0,\infty)$について凹関数である。よって、全ての$A, A + x, >0$について、$f(A + x) \leq f(A) + x f'(A)$が成り立つ。これは以下のように書ける。

\[\sqrt{A + x} \leq \sqrt{A} + \frac{x}{2\sqrt{A}}\]

これを繰り返し適用することにより、補題が従う。 $\qquad\blacksquare$

証明を続けよう。$\text{(IV)}$をバウンドする必要があるのだった。$c_{\delta} = \sqrt{2 S \log(2) + \log(HK(HK+1)SA/\delta)}$ とする。更に$M_k(s,a) = \sum_{h=1}^{H-1} \mathbb{I}(S_h^{(k)}=s, A_h^{(k)} = a)$ 、$N_k(s,a) = M_1 + \cdots + M_{k-1}$とする。このとき、以下が成り立つ。

\[\begin{align*} \sum_{k=1}^K \sum_{h=0}^{H-1}\beta_\delta(N_k(S_h^{(k)}, A_h^{(k)})) &\leq c_{\delta} \sum_{s,a} \sum_{k=1}^K \sum_{h=0}^{H-1}\frac{\mathbb{I}(S_h^{(k)}=s, A_h^{(k)} = a)}{\sqrt{1 \vee N_k(s,a)}}\\ &=c_{\delta} \sum_{s,a} \sum_{k=1}^K \frac{M_k}{\sqrt{1 \vee (M_1 + \dots + M_{k-1})}} \end{align*}\]

次に、先ほど証明した代数的な補題と、$M_k(s,a) \leq H$ であることを用いて、以下のようにできる。

\[\begin{align*} \sum_{k=1}^K \sum_{h=0}^{H-1}\beta_\delta(N_k(S_h^{(k)}, A_h^{(k)})) &\leq c_{\delta} \sum_{s,a} \sum_{k=1}^K \frac{M_k(s,a)}{\sqrt{1 \vee( M_1(s,a) + \dots + M_{k-1}(s,a))}}\\ &\leq c_{\delta} \sum_{s,a} \sum_{k=1}^K \frac{M_k(s,a)}{\sqrt{1 \vee (M_1(s,a) + \dots + M_{k}(s,a) - H)}}\\ &\leq c_{\delta} \sum_{s,a} \sum_{k=1}^K \frac{M_k(s,a) \mathbb{I}(M_1(s,a) + \dots + M_{k}(s,a) > H)}{\sqrt{M_1(s,a) + \dots + M_{k}(s,a) - H}} + c_{\delta} HSA\\ &\leq 2 c_{\delta}\sum_{s,a} \sqrt{N_k(s,a)} + c_{\delta} HSA\\ &\leq 2 c_{\delta} SA \sqrt{\sum_{s,a} N_k(s,a)/SA} + c_{\delta} HSA\\ &= 2 c_{\delta}\sqrt{SAHK} + c_{\delta} HSA \end{align*}\]

最後の不等号はイェンセンの不等式を使った。

全ての項を集めて、Azuma-Hoeffdingsを使った2箇所と、事象 $\mathcal{E}$ についてユニオンバウンドをとり、証明を完了する。$\qquad\blacksquare$

未知の報酬関数

このUCRLの解析では、報酬が既知であることを仮定した。これはこういった研究ではよくある仮定だが、主に簡略化のために行われる。また、これによりバウンドが大きく変わるわけではないと想定しているからでもある。報酬を推定することは、遷移カーネルを推定することと比べてそんなに難しくない。

解析を変更し、未知の報酬を考慮するためには、まず決定的な報酬関数 $r_a(s) \in [0, R_{\max}]$を考える。ここで、$R_{\max}$ は適当なステップごとの報酬の上界だ。

楽観主義のアイデアを取りいれて、報酬の推定値を以下のように定義する。

\[\hat r_a^{(k)}(s) = \begin{cases} r_{A_h^{(k')}}(S_h^{(k')}) & \text{(s,a) がラウンド$k' < k$、ステップ $h$で訪問された場合}\\ R_{\max} & \text{その他の場合。} \end{cases}\]

これは明らかに楽観的な推定であり、$\hat r_a^{(k)}(s) \geq r_a(s)$ となる。更に、最大でも $SA$ 回 $\hat r_{A_h^{(k)}}^{(k)}(S_h^{(k)}) \neq r_{A_h^{(k)}}(S_h^{(k)})$ となる。そのため、先の分析でのリグレットは最大で $R_{\max}SA$ だけ増える。

報酬が確率的である場合、報酬についての最尤推定値を使って、その推定値の周りで信頼バウンドを構成できる。このやり方で、楽観的な報酬を定義することができる。報酬の推定値が$P$の推定値と同じレートで集中しているため、それでもあまりリグレットは変わらない。

UCBVI: Upper Confidence Bound Value Iteration

UCRL方策を計算するのはとてもチャレンジングだ。しかし、後退帰納法が使えるように、もう少し構成をゆるめることができる。信頼集合の時間均質ではない(? time-inhomogenous)緩和を以下のように定義する。

\[C_{k,\delta}^H = \underbrace{C_{k,\delta} \times \cdots \times C_{k,\delta}}_{H \text{ times}}\]

$\tilde P_{1:H,k} := (\tilde P_{1,k}, \dots, \tilde P_{H,k}) = \arg\max_{P \in C_{k,\delta}^H} v^*_P(s_0^{(k)})$ を楽観的 (かつ時間均質でない) 遷移行列とし、 $\pi_k = \arg\max_{\pi} v_{\tilde P_{1:H,k}}^\pi$ を楽観的なモデル $\tilde P_{1:H,k}$ 上での最適方策とする。すると、 $v_{\tilde P_{1:H,k}}^{\pi^k} = v_{\tilde P_{1:H,k}}^* = v^{(k)}$ は以下の後退帰納法により定義できる。

\[\begin{align*} v^{(k)}_H(s) &= 0 \qquad\forall s \in [S]\\ Q_h^{(k)}(s,a) &= r(s,a) + \max_{P \in C_{k,\delta}} P_a(s) v_{h+1}^{(k)}\\ v^{(k)}_h(s) &= \max_{a} Q_h^{(k)}(s,a) \end{align*}\]

2行目の最大値をとる部分は、凸制約のもとでの線形最適化なので、効率よく解ける。更に、解析の中で同じ(ステップごとの)緩和を用いたため、UCRLのリグレットの証明を使うことができる。

更に、この後退帰納法を緩和させ、$C_{k,\delta}$上での最適化を完全に回避できる。

\[\begin{align*} \max_{P \in C_{k,\delta}} P_a(s) v_{h+1}^{(k)}&\leq P_a^{(k)}(s) v_{h+1}^{(k)}+ \max_{P \in C_{k,\delta}} (P_a(s) - P_a^{(k)}(s)) v_{h+1}^{(k)}\\ &\leq P_a^{(k)}(s) v_{h+1}^{(k)}+ \max_{P \in C_{k,\delta}} \|P_a(s) - P_a^{(k)}(s))\|_1 \| v_{h+1}^{(k)}\|_\infty\\ &\leq P_a^{(k)}(s) v_{h+1}^{(k)}+ \beta_{\delta}(N_k(s,a))H\\ \end{align*}\]

ここから、(upper confidence bound value iteration) アルゴリズムが導かれる。エピソード $k$で、 UCBVI は価値反復法を推定された遷移カーネル $P_a^{(k)}(s)$ と楽観的な報酬関数 $r_a(s) + H \beta_\delta(N_k(s,a))$ に適用し、方策を計算する。

UCBVI (Upper confidence bound value iteration):

エピソード $k=1,\dots,K$において、

楽観的な価値関数を計算する:

\[\begin{align*} v^{(k)}_H(s) &= 0 \qquad\forall s \in [S]\\ b_k(s,a) &= H\beta_{\delta}(N_k(s,a))\\ Q_h^{(k)}(s,a) &= \min\left(r(s,a) + b_k(s,a) + P_a^{(k)}(s) v_{h+1}^{(k)}, H\right)\\ v^{(k)}_h(s) &= \max_{a} Q_h^{(k)}(s,a) \end{align*}\]

貪欲方策$A_{h}^{(k)} = \arg\max_{A} Q_h^{(k)}(S_h^{(k)}, A)$に従う。
エピソードデータ ${S_0^{(k)}, A_0^{(k)}, S_1^{(k)}, \dots, S_{H-1}^{(k)}, S_{H-1}^{(k)}, S_H^{(k)}}$を観測する

ここで、$ Q_h^{(k)}$-関数を最大で$H$になるように切り捨てていることに注意しよう。これがリグレットバウンドが$H$倍に膨れ上がることを回避している。先の解析がまだ使えることを注意深くチェックすることで、UCBVIがたかだか $R_K \leq \mathcal{O}(H^{2}S \sqrt{AK})$ のリグレットを持つことを示せる。

より注意深くUCBVIの報酬ボーナスを設計することで、$R_K\leq \mathcal{\tilde O}(H^{3/2}\sqrt{SAK})$ のリグレットを達成することが可能だ。これは、時間的に均質でない設定でのリグレットの下界のたかだか対数倍である。

ノート

参考文献

オリジナルのUCRL論文だ。この論文では無限ホライゾンで、平均報酬和最大化の設定が使用されていることに注意しよう。これは、この章で扱ったエピソードつきMDPの設定とは異なる。

Auer, P., & Ortner, R. (2006). Logarithmic online regret bounds for undiscounted reinforcement learning. Advances in neural information processing systems, 19. [link]

UCBVIの論文だ。この論文では時間的に均質な設定を扱っており、この章で紹介したものとは異なる。

Azar, M. G., Osband, I., & Munos, R. (2017, July). Minimax regret bounds for reinforcement learning. In International Conference on Machine Learning (pp. 263-272). PMLR. [link]

The paper that presents the lower bound. Notice the they consider the infinite horizon average reward setting. Thus, there results contains a diameter term $D$ instead of a horizon term of $H$. この論文でリグレットの下界が示されている。この論文では無限ホライゾンで、平均報酬和最大化の設定が使用されている。そのため、この論文の結果はホライゾン$H$のかわりにMDPの半径$D$を含んでいる。

Auer, P., Jaksch, T., & Ortner, R. (2008). Near-optimal regret bounds for reinforcement learning. Advances in neural information processing systems, 21. [link]