Link Search Menu Expand Document

24. 特徴付きMDP

PDF Version (未翻訳)

\(M=(\mathcal{S}, \mathcal{A}, P, r, \mu, H)\)で与えられる(有限ホライズンの)テーブルMDPでは,ざっくり言えば,学習者は最悪ケースでは全ての状態と行動についての報酬と遷移確率を学習する必要がある. 実際,時間定常でない場合)のテーブルMDPのリグレットの下界は\(R_K \geq \Omega(H^{3/2}\sqrt{ASK})\)であり,この事実は下界に反映されている.

一方で,多くの応用では状態空間が巨大であるため,強化学習はしばしば関数近似と一緒に使用される. このような設定では,状態の数$S$に比例するバウンドは望ましくない. これを回避するための最も単純なパラメトリックモデルでは,遷移関数と報酬関数を状態-行動の特徴ベクトルによる線形なパラメータ化を考える場合が多い。 こうしたパラメータ化を使った最終的な目標は,関数クラスの複雑さ(例えば,線形モデルの特徴の次元)に比例するが,$S$および$A$に依存しないようなバウンドを得ることである.

歴史的には,線形MDPモデルのオンライン学習についての多くのアイデアは,線形バンディットモデルから借用されている. より詳しい内容はBandit Bookの第19章と第20章で確率的線形バンディットとLinUCBについて読むと良いだろう.

線形混合MDP

有限ホライゾンでエピソディックなMDP\(M=(\mathcal{S}, \mathcal{A}, P_h, r_h, \mu, H)\)を考えよう. ここで,報酬\(r_h\)と遷移カーネル\(P_h\)は非定常であることに注意しよう. \(\mathcal{S}\)は有限だが非常に巨大になり得る状態空間とし,\(\mathcal{A}\)を有限な行動空間とする. 今回は有限な状況を考えるが,丁寧に解析すれば無限の状態と行動空間に拡張できる. いままでと同じように,報酬関数\(r_h(s,a) \in [0,1]\)は既知であるとする.

ここで、遷移カーネル$P_h$について(線形な)構造を追加する. 学習者は特徴ベクトル\(\phi(s,a,s') \in \mathbb{R}^d\)にアクセスできるとし、その特徴ベクトルは\(\|\phi(s,a,s')\|_2 \leq 1\)を満たすとする. 特に非定常な線形混合 MDPでは、遷移カーネルは次の形式で表される。

\[P_{h,a}(s,s') = \langle \phi(s,a,s'), \theta_h^* \rangle\]

ここで\(\theta_h^* \in \mathbb{R}^d\)は\(\|\theta_h^*\|_2 \leq 1\)であるような未知のパラメータである。 テーブル形式のMDPは$\phi(s,a,s’) = e_{s,a,s’}$で復元できることに注意したい。$e_{s,a,s’}$は\(\mathbb{R}^{\mathcal{S} \times \mathcal{A}\times \mathcal{S}}\)の単位ベクトルである。

また、任意の関数\(V : \mathcal{S} \rightarrow \mathbb{R}\)、について、

\[\phi_V(s,a) = \sum_{s'} \phi(s,a,s')V(s') \in \mathbb{R}^d\]

とする。

\(\langle\phi_V(s,a), \theta^*\rangle\)は\(s'\)が\(P_{h,a}(s)\)からサンプルされてるときの\(V(s')\)の期待値である。実際、

\[P_{h,a}(s)V = \sum_{s'} P_{h,a}(s,s') V(s') = \sum_{s'} \langle \phi(s,a,s'), \theta_h^* \rangle V(s') = \langle \phi_V(s,a), \theta_h^* \rangle\]

が成り立つ。

Value Targeted Regression (VTR)

パラメータ化されたモデルを構築したので、続いて未知のパラメータの推定器を構築しよう。 $\theta^*$の推定器があれば任意の方策の価値が予測できる(報酬が既知だからかな?)。 また、これから見るアルゴリズムでは楽観的な価値関数の推定値の構築をしていく。したがって、推定値の信頼区間が必要になる。

\((V_h^{(j)})^{j<k}_{h\leq H}\) をエピソード\(k-1\)までで構築された価値関数の系列とする。 また、\(\phi_{h,j} =\phi_{V_{h+1}^{(j)}}(S_h^{(j)}, A_h^{(j)})\)および\(y_{h,j} = V_{h+1}^{(j)}(S_{h+1}^{(j)})\)とする。 線形混合 MDPの仕組み上、\(\mathbb{E}[y_{h,j}] = \langle \phi_{h,j}, \theta^* \rangle\)かつ\(\vert y_{h,j}\vert \leq H\)であることに注意しよう。 ここで次の正則化された二乗回帰を定義する。

\[\hat \theta_{h,k} = \arg\min_{\theta} \sum_{j=0}^{k-1} \big(\langle \phi_{h,j},\theta\rangle - y_{h,j}\big)^2 + \lambda \|\theta\|^2\]

$\mathbf{I}_d \in \mathbb{R}^{d\times d}$ を単位行列とする。 \(\hat \theta_{h,k}\)の解析解は次で書ける:

\[\begin{align*} \hat \theta_{h,k} = \Sigma_{h,k}^{-1} \sum_{j=0}^{k-1}\phi_{h,j} y_{h,j}\qquad \text{where} \quad \Sigma_{h,k} = \sum_{j=0}^{k-1} \phi_{h,j}\phi_{h,j}^{\top} + \lambda \mathbf{I}_d \end{align*}\]

次に推定の不確実性を定量化しよう。 テーブル形式の設定と似た手続きとして、\(\hat \theta_{h,k}\)の信頼区間を構築する。

半正定値行列\(\Sigma \in \mathbb{R}^{d\times d}\) とベクトル\(v \in \mathbb{R}^d\)について, (半)ノルム \(\|a\|_\Sigma = \sqrt{\langle v, \Sigma v \rangle}\)とする。 以下の楕円の信頼区間を\(\hat \theta_{h,k}\)に使用していく。

\[C_{h,\delta}^{(k)} = \{\theta : \|\theta - \hat \theta_{h,k}\|_{\Sigma_{h,k}}^2 \leq \beta_{h,k,\delta} \}\]

ここで

\[\beta_{h,k,\delta}^{1/2} = H\sqrt{\log \det(\Sigma_{h,k}) - \log \det(\Sigma_{h,0}) + 2 \log(1/\delta)} + \sqrt{\lambda}\]

である。

\(\Sigma_{h,k}\)の対数行列式はアルゴリズムでオンラインで計算できる(?)。 以降の解析のためには\(\beta_{h,k,\delta}\)の上界を導出しておくと便利である。 \(\beta_{h,k,\delta}\)についてはデータ系列に依存しない以下の上限が成立する:

\[\beta_{h,k,\delta}^{1/2} \leq H \sqrt{d\log (1 + k/(d\lambda)) + 2\log(1/\delta)} + \sqrt{\lambda}\]

上記の不等式の導出については、Bandit BookのLemma 19.4を参照してほしい。 信頼確率について次の補題が成立する。


補題 (Online Least-Squares Confidence) \(0 \leq h < H\)を固定する。このとき、

\[\mathbb{P}[\theta_h^* \in \cap_{k \geq 1}C_{h,k,\delta}] \geq 1-\delta\]

証明: 上記の結果と証明についてはAbbasi-Yadkori et al (2011)のTheorem 2を参照してほしい。

この信頼区間は、次の推定誤差の上界を確率\(1-\delta\)以上で保証するために有用である。

\[|\langle \phi_V(s,a), \hat \theta_{h,k} - \theta^* \rangle| \leq \| \phi_V(s,a)\|_{\Sigma_{h,k}^{-1}} \|\hat \theta_{h,k} - \theta^*\|_{\Sigma_{h,k}} \leq \beta_{h,k,\delta}^{1/2} \| \phi_V(s,a)\|_{\Sigma_{h,k}^{-1}}\]

最初の不等式はCauchy-Schwarzの不等式を使い、2つ目は上記の補題を利用した。

UCRL-VTR

テーブル形式のUCRLとUCBVIアルゴリズムと同様に、UCRL-VTRも推定値\(\hat \theta_{h,k}\)を使用して楽観的な方策を計算する。 この楽観的な方策は、後ろから帰納的に定義された楽観的なQ-推定値を使えば得られる。 UCRL-VTRでは楽観的なQ値に関する貪欲方策に従う。


UCRL-VTR

エピソード\(k=1,\dots,K\)について、

  1. \(V^{(k)}_H(s) = 0\)とする。 \(\hat \theta_{h,k}\)と\(\Sigma_{h,k}\)を計算する。再帰的に楽観的な価値関数を定義する。

    \(h=H-1,\dots,0\)について:

    \[\begin{align*} \hat \theta_{h,k} &= \arg\min_{\theta} \sum_{j=1}^{k-1} \big(\langle\phi_{h,j}, \theta \rangle - y_{h,j}\big)^2 + \lambda \|\theta\|_2^2\\ \Sigma_{h,k} &= \sum_{j=1}^k \phi_{h,j}\phi_{h,j}^\top + \lambda \mathbf{I}_d\\ Q_h^{(k)}(s,a) &= \big(r_h(s,a) + \langle \phi_{V_{h+1}^{(k)}}(s,a), \theta_{h,k} \rangle + \beta_{h,k,\delta/H}^{1/2}\|\phi_{V_{h+1}^{(k)}}(s,a)\|_{\Sigma_{h,k}^{-1}} \big)\wedge H\\ V_h^{(k)}(s) &= \max_{a} Q_h^{(k)}(s,a) \end{align*}\]
  2. $Q_h^{(k)}(s,a)$についての貪欲方策に従う。

    \(h = 0, \dots, H-1\)について:

    \[\begin{align*} A_{h}^{(k)} &= \arg\max_{a \in \mathcal{A}} Q_h^{(k)}(S_h^{(k)}, a) \end{align*}\]

    \(\phi_{h,k} =\phi_{V_{h+1}^{(k)}}(S_h^{(k)}, A_h^{(k)})\) および \(y_{h,k} = V_{h+1}^{(k)}(S_{h+1}^{(k)})\) とする。


これでUCRL-VTRのリグレットバウンドを導出する準備が整った。


定理 (UCRL-VTRのリグレット)

UCRL-VTRのリグレットは確率\(1-2\delta\)以上で次を満たす:

\[R_K \leq \mathcal{O}\big(d H^{2}\log(K) \sqrt{K \log(KH/\delta)} \big)\]

ここで、リグレットバウンドは特徴ベクトルの次元\(d\)に依存するが状態行動空間のサイズには依存していないことに注意しよう。 この問題設定での下界は\(R_K \geq \Omega(dH^{3/2} \sqrt{K})\)であるから、この上界は\(\sqrt{H}\)の分以外はタイトである。

証明:

リグレットバウンドはUCRLと似たようにして証明する。

ステップ 1 (楽観性):

$h=0,\dots, H-1$についてユニオンバウンドを取ると、上の補題より、確率\(1-\delta\)以上で、全ての$h \in [H-1]$と$k \geq 0$に対して、\(\theta_h^* \in C_{h,\delta/H}^{(k)}\)が成り立つ。 以下ではこの事象が成立しているとする。\(h=H, H-1, \dots, 0\)について帰納的に変形すると、

\[V^*_0(S_h^{(k)}) \leq V_{0}^{(k)}(S_h^{(k)})\]

が示せる。

ステップ 2 (ベルマン再帰と推定誤差):

任意の$h =0, \dots, H-1$について、

\[\begin{align*} &V_{h}^{(k)}(S_h^{(k)}) - V_h^{\pi_k}(S_h^{(k)}) \\ &\leq \langle \phi_{V_{h+1}^{(k)}}(S_h^{(k)}, A_h^{(k)}), \hat \theta_{h,k}\rangle + \beta_{h,k,\delta/H}^{1/2} \|\phi_{V_{h+1}^{(k)}}(S_h^{(k)}, A_h^{(k)})\|_{\Sigma_{h,k}^{-1}} - P_{h, A_{h}^{(k)}}^*(S_h^{(k)}) V_{h+1}^{\pi_k}\\ &= \langle \phi_{V_{h+1}^{(k)}}(S_h^{(k)}, A_h^{(k)}), \hat \theta_{h,k} - \theta^*\rangle + \beta_{h,k,\delta/H}^{1/2} \|\phi_{V_{h+1}^{(k)}}(S_h^{(k)}, A_h^{(k)})\|_{\Sigma_{h,k}^{-1}} + P_{h, A_{h}^{(k)}}^*(S_h^{(k)}) (V_{h+1}^{(k)}- V_{h+1}^{\pi_k}) \end{align*}\]

である。 ここで、不等式は$V_h^{(k)}$の定義から成り立つ(また、$H$についての切り捨てを無視する)。 また、最後の行では\(P_{h, A_{h}^{(k)}}^*(S_h^{(k)}) V_{h+1}^{(k)} = \langle \phi_{V_{h+1}^{(k)}}(S_h^{(k)}, A_h^{(k)}), \theta^*\rangle\)を利用している。 また、Cauchy-Schwarzより、\(\theta^* \in C_{k,\delta/H}\)の事象では、

\[\langle \phi_{V_{h+1}^{(k)}}(S_h^{(k)}, A_h^{(k)}), \hat \theta_{h,k} - \theta^*\rangle \leq \beta_{h,k,\delta/H}^{1/2} \|\phi_{V_{h+1}^{(k)}}(S_h^{(k)}, A_h^{(k)})\|_{\Sigma_{h,k}^{-1}}\]

が成り立つ。

先の結果を拡張すると、

\[\begin{align*} &V_{h}^{(k)}(S_h^{(k)}) - V_h^{\pi_k}(S_h^{(k)}) \\ &\leq 2 \beta_{h,k,\delta/H}^{1/2} \|\phi_{V_{h+1}^{(k)}}(S_h^{(k)}, A_h^{(k)})\|_{\Sigma_{h,k}^{-1}} + P_{h, A_{h}^{(k)}}^*(S_h^{(k)}) (V_{h+1}^{(k)}- V_{h+1}^{\pi_k})\\ &= 2 \beta_{h,k,\delta/H}^{1/2} \|\phi_{V_{h+1}^{(k)}}(S_h^{(k)}, A_h^{(k)})\|_{\Sigma_{h,k}^{-1}} + V_{h+1}^{(k)}(S_{h+1}^{(k)}) - V_{h+1}^{\pi_k}(S_{h+1}^{(k)}) + \xi_{h,k} \end{align*}\]

が得られる。ここで、

\[\xi_{h,k} = \big(P_{h, A_{h}^{(k)}}^*(S_h^{(k)}) (V_{h+1}^{(k)}- V_{h+1}^{\pi_k})\big)- \big(V_{h+1}^{(k)}(S_{h+1}^{(k)}) - V_{h+1}^{\pi_k}(S_{h+1}^{(k)})\big)\]

とした。

上の不等式を再帰的に適用し、全てのエピソードについて和を取ると、

\[\sum_{k=1}^K V_{0}^{(k)}(S_0^{(k)}) - V_0^{\pi_k}(S_0^{(k)}) \leq \sum_{k=1}^K \sum_{h=0}^{H-1} 2 \beta_{h,k,\delta}^{1/2} \|\phi_{h,k}\|_{\Sigma_{h,k}^{-1}} + \xi_{h,k}\]

が成り立つ。

ここで$\xi_{h,k}$ はマルチンゲール差分列であるから、Azuma-Hoeffdingsの不等式より、確率$1-\delta$以上で、

\[\sum_{k=1}^K \sum_{h=0}^{H-1} \xi_{h,k} \leq H \sqrt{\frac{HK}{2} \log(1/\delta)}\]

が成り立つ。

ステップ 3 (Cauchy-Schwarz):

\(\beta_{h,k,\delta}\)は\(h\)と\(k\)の両方について単調増加であることに注意しよう。 これを使って\(\beta_{h,k,\delta} \leq \beta_{H,K,\delta}\)とバウンドしても実はあまり影響はない。 前のステップから、不確実性の和\(\|\phi_{h,k}\|_{\Sigma_{h,k}^{-1}}\)の上限を求めれば良いことがわかる。 Cauchy-Schwarzの不等式から始めよう。 二つの系列\((a_i)_{i=1}^n\)と\((b_i)_{i=1}^n\)について、\(\vert\sum_{i=1}^n a_i b_i \vert \leq \sqrt{\sum_{i=1}^n a_i^2 \sum_{j=1}^n b_i^2}\)が成り立つ。 これをリグレットに適用すると、

\[\sum_{k=1}^K \sum_{h=0}^{H-1} 2 \beta_{h,k,\delta}^{1/2} \|\phi_{h,k}\|_{\Sigma_{h,k}^{-1}} \leq \sum_{h=0}^{H-1} 2 \beta_{h,K,\delta}^{1/2} \sqrt{K \sum_{k=1}^K \|\phi_{h,k}\|_{\Sigma_{h,k}^{-1}}^2}\]

が得られる。

ステップ 4 (Elliptic potential lemma):

続いて、\(\|\phi_{h,k}\|_{\Sigma_{h,k}^{-1}}^2\)についての和をバウンドしよう。 次の古典的な結果はelliptic potential lemmaと呼ばれる:

\[\sum_{k=1}^K \|\phi_{h,k}\|_{\Sigma_{h,k}^{-1}}^2 \leq \mathcal{O}(d \log(K))\]

この証明はBandit BookのLemma 19.4を参照してほしい。

ステップ 5 (まとめ):

後は以上の手順をまとめて、信頼区間が真のパラメータを含む事象についてとAzuma-Hoeffdingの利用の際にユニオンバウンドを取れば終わりだ。

\[\begin{align*} R_K &= \sum_{k=1}^K V_{0}^{(k)}(S_0^{(k)}) - V_0^{\pi_k}(S_0^{(k)}) \\ &\leq \sum_{k=1}^K \sum_{h=0}^{H-1} \big(2 \beta_{h,k,\delta}^{1/2} \|\phi_{h,k}\|_{\Sigma_{h,k}^{-1}} + \xi_{h,k}\big)\\ &\leq C \cdot H \beta_{H,K,\delta}^{1/2} \sqrt{d \log(K) K} + H^{3/2} \sqrt{2K \log(1/\delta)} \end{align*}\]

が適当な定数\(C\)について成り立つ。これで証明は終わりである。 \(\qquad\blacksquare\)

線形MDP

ここまでは線形混合MDPモデルについて見てきた。 しかし、遷移行列をパラメータ化する方法はこれに限らない。別の方法として、特徴$\phi(s,a) \in \mathbb{R}^d$、\(\psi_h^{*} \in \mathbb{R}^{d\times S}\)と\(\theta_h^* \in \mathbb{R}^d\)によって定義される 線形MDPモデルが考えられる:

\[\begin{align*} P_h^*(s,s') &= \langle\phi(s,a), \psi_h^*(s')\rangle\\ r_h(s,a) &= \langle \phi(s,a), \theta_h^* \rangle \end{align*}\]

テーブル形式のMDPは$\phi(s,a) = e_{s,a}$のときに復元できることに注意したい。ここで$e_{s,a}$は\(\mathbb{R}^{\mathcal{S} \times \mathcal{A}}\)上の単位ベクトルである。

線形混合モデルと比較すると、次の状態$s’$に対する依存性がパラメータ\(\psi_h(s') \in \mathbb{R}^d\)に押し込められていることがわかる。 パラメータ空間の次元は状態数に比例してしまうため、リグレットの上界を求める際にどのように$S$依存性を回避できるかは自明ではない(?)。 このモデルのもう一つの重要な性質は、任意の方策に対する$Q$関数が特徴量$\phi(s,a)$に対して線形であることである。


補題:

線形MDPの仮定では、任意の方策$\pi$に対してQ関数$Q_h^\pi(s,a)$は特徴$\phi(s,a)$に線形である。 つまり、パラメータ$w_h^\pi \in \mathbb{R}^d$が存在して、次が成り立つ。

\[Q_h^\pi(s,a) = \langle \phi(s,a), w_h^\pi \rangle\]

Proof: この主張は、$r_h(s,a)$と$P_{h,a}(s)$に対する仮定と、$Q_h^\pi$の定義から直ちに成り立つ。

\[\begin{align*} Q_h^\pi(s,a) &= r_h(s,a) + P_{h,a}(s)V_{h+1}^\pi\\ &= \langle \phi(s,a), \theta_h^* \rangle + \sum_{s'} V_{h+1}^\pi(s') \langle \phi(s,a), \psi_h^*(s') \rangle\\ &=\langle \phi(s,a), w_h^\pi \rangle \end{align*}\]

ここで最後の行では\(w_h^\pi = \theta_h^* + \sum_{s'} \psi_h^*(s') V_{h+1}^\pi(s')\)を定義した。 \(\qquad\blacksquare\)

この補題のもとで、最適方策に対応する$w_h^{\pi^*}$を推定することが目標である。 これは最小二乗法を用いた価値反復法(LSVI)によって実現できる。 \(\{S_1^{(j)}, A_1^{(j)}, \dots, S_{H-1}^{(j)}, A_{H-1}^{(j)}, S_{H}^{(j)}\}_{j=1}^{k-1}\) をエピソード$k$の始めに使用可能なデータとする。 \(\phi_{h,j} = \phi(S_h^{(j)}, A_h^{(j)})\) として、ターゲット\(y_{h,j} = r_h(S_h^{(j)}, A_h^{(j)}) + \max_{a \in \mathcal{A}} Q_{h+1}^{(j)}(S_h^{(j)},a)\) をエピソード\(j=1,\dots,k-1\)の\(Q_{h+1}^{(j)}(s,a)\)の推定値に基づいて定義する。

LSVIは次の問題を解く:

\[\begin{align*} \hat w_{h,k} &= \arg\min_{w \in \mathbb{R}^d} \sum_{j=1}^{k-1} \big(\langle\phi_{j,h}, w\rangle - y_{j,h}\big)^2 + \lambda \|w\|_2^2 \end{align*}\]

この解析解は$w_{h,k} = \Sigma_{h,k}^{-1}\sum_{j=1}^{k-1} \phi_{h,j}y_{h,j}$であり、ここで\(\Sigma_{h,k} = \sum_{j=1}^{k-1} \phi_{j,h}\phi_{j,h}^\top + \lambda \mathbf{I}_d\)である。

\(\hat w_{h,k}\)の推定値に基づいて、楽観的な\(Q\)と\(V\)の推定が定義できる:

\[\begin{align*} Q_h^{(k)}(s,a) &= (\langle\phi(s,a), \hat w_{h,k}\rangle + \tilde \beta_{k,\delta}^{1/2} \|\phi(s,a)\|_{\Sigma_{h,k}^{-1}}) \wedge H\\ V_h^{(k)}(s) &= \max_{a \in \mathcal{A}} Q_h^{(k)} \end{align*}\]

上記の特徴量が\(\|\phi(s,a)\|_2\leq 1\)を満たし、真のパラメータが\(\|\theta_h^*\|_2 \leq 1\) かつ\(\| \psi_{h}^*v\|_2 \leq \sqrt{d}\) を任意の\(\|v\|_\infty \leq 1\)なる$v \in \mathbb{R}^S$について満たすと仮定すると、信頼パラメータは以下のように選択できる:

\[\tilde \beta_{k,h,\delta} = \mathcal{O}\left(d^2 \log(\frac{HK}{\delta})\right)\]

この結果は、状態空間のサイズ$S$に依存しないリグレットバウンドを破る鍵である。 証明には、緻密なcovering argumentの議論が必要です。 詳細については、RL Theory Bookの第8章を参照してほしい。

LSVI-UCB


アルゴリズム: LSVI-UCB

エピソード\(k=1,\dots,K\)について、

  1. \(V_H^{(j)}(s) = 0\)を\(j=1,\dots, k-1\)について初期化する.

    \(h=H-1,\dots,0\)について、楽観的な$Q$値を推定する:

    \[\begin{align*} y_{h,j} &= r_h(S_h^{(j)}, A_h^{(j)}) + V_{h+1}^{(j)}(S_h^{(j)})\quad \forall\,j=1,\dots,k-1\\ \phi_{h,j} &= \phi(S_h^{(j)}, A_h^{(j)})\quad \forall\,j=1,\dots,k-1\\ \hat w_{h,k} &= \arg\min_{w \in \mathbb{R}^d} \sum_{j=1}^{k-1} \big(\langle\phi_{j,h}, w\rangle - y_{j,h}\big)^2 + \lambda \|w\|_2^2\\ \Sigma_{h,k} &= \sum_{j=1}^{k-1} \phi_{j,h}\phi_{j,h}^\top + \lambda \mathbf{I}_d\\ Q_h^{(k)}(s,a) &= (\langle\phi(s,a), \hat w_{h,k}\rangle + \tilde \beta_{k,\delta}^{1/2} \|\phi(s,a)\|_{\Sigma_{h,k}^{-1}}) \wedge H \end{align*}\]
  2. $h=0,\dots, H-1$について、 次の貪欲方策に従う。

    \[A_{h}^{(k)} = \arg\max_{a \in \mathcal{A}}Q_h^{(k)}(S_h^{(k)},a)\]

エピソード$k$の楽観的方策の計算は、最小二乗法の推定 \(\hat w_{h,k}\) をSherman-Morrison formulaの公式を使ってインクリメンタルに更新することで、\(\mathcal{O}(Hd^2 + HAd)\)の時間で計算できる。UCRL-VTRと比較すると、これは状態空間\(S\)を反復する必要がないため、大きな利点がある。


定理 (LSVI-UCB のリグレット)

LSVI-UCBのリグレットは確率\(1-\delta\)以上で次のようにバウンドされる(対数項は無視する):

\[R_K \leq \mathcal{\tilde O}(d^{3/2} H^2 \sqrt{K})\]

証明: 証明のアイデアは、UCRL-VTRの証明と似た戦略に従う。前述のように、肝心なことは、状態空間のサイズに依存しないLSVIの信頼区間を示すことである。詳細についてはRL Theory Bookの第8章を参照してほしい。 \(\qquad\blacksquare\)

ノート

VTRについてのBernstein-タイプのバウンド (UCRL-VTR$^+$)

UCRL-VTR$^+$アルゴリズムは計算効率が高く、エピソディックと割引無限ホライゾンの設定においては、それぞれ\(\mathcal{O}(dH\sqrt{K})\)と\(\mathcal{O}(d\sqrt{T}(1-\gamma)^{-1.5})\) のリグレットバウンドを保証できる。 これらの結果はBernsteinタイプのバウンドを利用すると得られる。

Linear MDPs におけるより良いバウンド (Eleanor)?

注意深い読者は、LSVI-UCBのリグレットバウンドが、テーブル形式の下界である\(\mathcal{\tilde O}(d^{3/2} H^2 \sqrt{K})\)とは一致しないことに気づいたかもしれない。 実際、$\sqrt{d}$だけ上界と下界には差がある。​ Eleanorアルゴリズム(Zanette et al (2020)のアルゴリズム1)はこの$\sqrt{d}$の差を取り除いて、リグレットバウンドを\(\mathcal{\tilde O}(d H^2 \sqrt{K})\)で保証できる。 ただし、現在、このアルゴリズムを計算的に効率的な方法で実装できるかどうかはわかっていない。 EleanorアルゴリズムはLow inherent Bellman誤差 (Zanette et al (2020)の定義1)を仮定しており、これは関数クラスがベルマン最適作用素について近似的に閉じられていることを意味する。 この仮定は線形MDPよりも一般的であることに注意しよう。したがって、Eleanorは線形MDPの仮定下でも動作する。

参考文献

UCRL-VTRの論文は以下である。

Ayoub, A., Jia, Z., Szepesvari, C., Wang, M., & Yang, L. (2020, November). Model-based reinforcement learning with value-targeted regression. In International Conference on Machine Learning (pp. 463-474). PMLR. [link]

UCRL-VTR$^+$の論文は以下である。この論文は線形混合MDPのリグレットの下界も導出している(\(\Omega(d H^{3/2} \sqrt{K})\)).

Zhou, D., Gu, Q., & Szepesvari, C. (2021, July). Nearly minimax optimal reinforcement learning for linear mixture markov decision processes. In Conference on Learning Theory (pp. 4532-4576). PMLR. [link]

LSVI-UCBの論文は以下である。

Jin, C., Yang, Z., Wang, Z., & Jordan, M. I. (2020, July). Provably efficient reinforcement learning with linear function approximation. In Conference on Learning Theory (pp. 2137-2143). PMLR. [link]

Eleanorの論文は以下である。

Zanette, A., Lazaric, A., Kochenderfer, M., & Brunskill, E. (2020, November). Learning near optimal policies with low inherent bellman error. In International Conference on Machine Learning (pp. 10978-10989). PMLR. Link