Link Search Menu Expand Document

18.有限MDPのサンプル効率

$Z = \mathcal{S} \times \mathcal{A}$ を状態-行動対の集合とします. $Z$ 計画は, すべての $Z$ の要素, すなわちすべての状態-行動対に対してカウントを割り当てます. 前回の講義では,

\[n = \tilde O\left( \frac{H^6 \mathrm{SA}}{\delta_{\text{trg}}} \right)\]

サンプルであることが, データが各状態-行動対に同じカウントを割り当てる $Z$ 計画から生成され, 経験的推定値を用いて報酬や遷移を推定し, その推定モデルに対して最適な方策を使用する直接的なプラグイン手法を使用することで, 高い確率で $\delta_{\text{trg}}$ -準最適な方策を得ることができることを与えました. 上記では, 状態-行動対に対する依存性は最適ですが, ホライゾン $H = \frac{1}{1-\gamma}$ に対する依存性は準最適です. 本講義前半では, 前回の講義で紹介した分析を改善し, 最適な3次依存性を得る方法を概要を示し, 3次依存性が実際に最適であることを示す概要を示します.

本講義後半では, 方策に基づくデータ収集, または実験計画法を検討します.ここでは, 初期状態からほぼ最適な方策を見つけることが目的であり ,データは初期状態からデータ収集の政策を使用したことによって生成された軌道で構成されています. ここでは, $Z$ 計画と方策に基づく計画法, および受動的な学習とアクティブラーニングの間に指数的な分離が存在することを示す下界 $\Omega(\mathrm{A}^{\min(\mathrm{S},H)})$ を示します.後者を見るには, シミュレータの存在下で, 初期状態へのリセットのみを使用し, データ収集と近似方策反復法を使うか, データ収集とポリテックスを使用して, 初期状態からほぼ最適な方策を得ることができますが, $\mathrm{S}$ , $\mathrm{A}$ ,および $H$ の多項式的なサンプル数を使用することができます. (cf. 講義 8 and 講義 14).

プラグイン法における分析改善 : 最初の方法

プラグイン手法の分析の改善は, 2つの方法があります.

  1. 価値関数の誤差を使用し, 方策誤差バウンドの使用を避ける.
  2. Hoeffdingの不等式の代わりにBernsteinの不等式を使用する 私たちは前の講義と同じ記法を使う.

特に, $M$ は”真の”MDP を, $\hat M$ は推定されたMDPを, そして $\hat\cdot$ を2番目の MDPに関連する量に付けます. さらに, $\pi^*$ を $M$ のメモリレス最適方策の1つとします. 単純化のために, $\hat M$ の 報酬関数が $M$ と同じであると仮定します:私たちは, 誤差バウンドの高次項が遷移確率のエラーから来ていることを見てきました.この簡略化の仮定は, この項を最小限にするだけでなく, この項を減少させることを焦点にします.引数は, $\hat r \neq r$ の場合にも簡単に拡張できます.

$M$ での $\hat \pi$ の準最適を制限するために, $\hat M$ での $\hat \pi$ の準最適と, 固定方策の値関数が $P$ から $\hat P$ に切り替わるときにどれだけ異なるかを制限することを考えます.特に, 次が成り立ちます.

\[\begin{align} v^* - v^{\hat \pi} & = v^* - \hat v^* \, + \, \hat v^* - v^{\hat \pi} \nonumber \\ & \le v^{\pi^*} - \hat v^{\pi^*} \, + \, \underbrace{\hat v^*-\hat v^{\hat \pi}}_{\text{最適化誤差}} \, + \, \hat v^{\hat \pi} - v^{\hat \pi}\,, \label{eq:subbd} \end{align}\]

ここで, \(\hat \pi^{}\) は $\hat M$ 内での最適な方策を示しており, 不等式は $\hat v^{}=\hat v^{\hat \pi^{}}\ge \hat v^{\pi^{}}$ であるため成立しています.

“最適化誤差”とマークされた項は, $\hat \pi$ が $\hat M$ 内ではあまり最適でない場合に生じる最適化誤差です.この項は, $\hat \pi$ の選択によって制御されます.単純化のため, 今は $\hat \pi$ が $\hat M$ 内で最適な方策であると仮定し, この項を省略することにします.さらに, $\hat \pi$ が $\hat M$ の决定的最適方策であると仮定します.

残るのは, 最初と最後の項を境界を決めることです.これらの両方の項は, 同じ方策 $\pi$ の価値関数の差 $v^\pi - \hat v^\pi$ の形をしています (ここで, $\pi$ は $\pi^*$ もしくは $\hat\pi$ ).この差は, 次の結果に示すように, $P-\hat P$ の差によって表される値の差の特性を持ちます:


補題 (遷移の違いからの価値の違い):

$M$ と $\hat M$ を, 状態-行動空間,報酬は同じであり, 遷移確率が異なる2つのMDPとします. $\pi$ を2つのMDPの状態-行動空間上のメモリレス方策とします. 次の不等式が成立します:

\[\begin{align} v^\pi - \hat v^\pi & = \gamma \underbrace{(I-\gamma P_\pi)^{-1} M_\pi (P-\hat P) \hat v^{\pi}}_{\delta(\hat v^\pi) }\ \label{eq:vdpd} \\ \hat v^\pi - v^\pi & = \gamma \underbrace{(I-\gamma \hat P_\pi)^{-1} M_\pi (\hat P- P) v^{\pi}}_{\hat{\delta}(v^\pi) }\ \label{eq:vdpd2} \end{align}\]

証明: 不等式 \eqref{eq:vdpd2} は対称性により \eqref{eq:vdpd} から導出されるため, \eqref{eq:vdpd} のみを証明する必要があります. 不等式 \eqref{eq:vdpd} の証明については, 閉じた形の価値関数の式から始めます.

\[\begin{align*} v^\pi - \hat v^\pi = (I-\gamma P_\pi)^{-1} r_\pi - (I-\gamma \hat P_\pi)^{-1} r_\pi\ \end{align*}\]

初歩的な公式から $\frac{1}{1-x} - \frac{1}{1-y} = \frac{x-y}{(1-x)(1-y)}$ , 計算すると

\[\begin{align*} v^\pi - \hat v^\pi & = (I-\gamma P_\pi)^{-1} \left[(I-\gamma \hat P_\pi)-(I-\gamma P_\pi) \right](I-\gamma \hat P_\pi)^{-1} r_\pi \\ & = \gamma (I-\gamma P_\pi)^{-1} \left[P_\pi -\hat P_\pi\right](I-\gamma \hat P_\pi)^{-1} r_\pi \\ & = \gamma (I-\gamma P_\pi)^{-1} M_\pi \left[P -\hat P\right] \hat v^\pi \ \end{align*}\]

よって, 証明が示された. \(\qquad \blacksquare\)

不等式 \eqref{eq:vdpd2} では, 経験的遷移カーネル $\hat P$ は, $M_\pi (\hat P-P)$ を左から乗算することにより逆数として現れますが, 不等式 \eqref{eq:vdpd} では, 同じ偏差項を右から乗算することで $\hat v^\pi$ を通じて現れます. 本セクションの残りでは, 不等式 \eqref{eq:vdpd2} を使用しますが, 次のセクションでは不等式 \eqref{eq:vdpd} を使用します.

前の不等式 \eqref{eq:vdpd2} から,直ちに次のことが得られます.

\[\begin{align} v^* - v^{\hat \pi} & \le \frac{\gamma}{1-\gamma} \left[ \|(P-\hat P) v^{\pi^*}\|_\infty + \|(P-\hat P) v^{\hat \pi}\|_\infty \right]\,. \label{eq:vdeb} \end{align}\]

$\hat P$ が各状態-行動対の次の状態を $m$ 個サンプリングして得られると仮定します. Hoeffdingの不等式と状態-行動対のユニオンバウンドを使用すると, 任意の固定された $v\in [0,H]^{SA}$ と $0\le \zeta <1$ の場合,確率 $1-\zeta$ で以下が成立します.

\[\begin{align} \|(P-\hat P) v \|_\infty = H\sqrt{\frac{\log(SA/\zeta)}{2m}}\, \label{eq:vbound} \end{align}\]

そして特に $v=v^{\pi^*}$ の時,

\[\|(P-\hat P) v^{\pi^*} \|_\infty = \tilde O\left( H/ \sqrt{m} \right) \,.\]

式 \eqref{eq:vdeb} の 2 番目の項を制御するには, $\hat \pi$ がランダムで, $\hat P$ を生成するのに使用される同じデータに依存するため, より注意が必要です. この項を扱うには,別のユニオンバウンドを使用します. \(\tilde V = { v^\pi : \pi: \mathcal{S} \to \mathcal{A}}\) は决定論的方策を考慮することで得られるすべての価値関数の集合とします. 構築上, $\hat \pi$ も决定論的方策であるため, \(\hat v^{\hat \pi}\in \tilde V\) . 従って,

\[\|(P-\hat P)\hat v^{\hat \pi} \|_\infty \le \sup_{v\in \tilde V}\|(P-\hat P)v \|_\infty\,\]

そのため, $\tilde V$ の $|\tilde V|\le A^S$ 個の関数 $v$ に対するユニオンバウンドを使用することで, 以下が得られます. 確率 $1-\zeta$ で:

\[\begin{align*} \|(P-\hat P)\hat v^{\hat \pi} \|_\infty & \le H\sqrt{\frac{\log(SA|\tilde V|/\zeta)}{2m}} = H\sqrt{\frac{\log(SA/\zeta)+S \log(A)}{2m}} = \tilde O\left(H\sqrt{S/m}\right)\,. \end{align*}\]

これらのものをつなぎ合わせると, 私たちは次のことが得られます.

\(v^* - v^{\hat \pi} = \tilde O\left(H^2\sqrt{S/m}\right)\\)

これにより, サンプルサイズの制限の $H^6$ の $H$ 依存性が $H^4$ に減少します. すぐに分かるように, これは $H$ の最適な依存性ではありません. この方法は, 状態数の最適な依存性を与えることもできません. 特に上記の制限を逆にすると, この方法では合計サンプル数 $n=SAm$ が少なくとも以下である場合にのみ $\delta$ 最適な方策を保証することができます.

\[\tilde O(S^2 A H^4/\delta^2)\\]

一方で, 私たちは次に最適なバウンドが $\tilde O(SA H^3/\delta^2)$ を見ることができます.

プラグイン法における分析改善 : 2番目の方法

最適とされるサンプル数を達成するためのさらなる2つのアイデアがあります. 1つはHoeffdingの不等式の代わりにBernsteinの不等式 を使用し, “総分散”に対する聡明な観察とともに, 2つ目はその結論を示す証明を向上させます.1つ目のアイデアはホライゾン依存性を改善するのに役立ち, 2つ目のアイデアは状態数の依存性を改善するのに役立ちます. 本講義では, 1つ目のアイデアのみをカバーし, 2つ目をスケッチします.

確率論におけるBernsteinの不等式の基本的な定式は:


定理 (Bernsteinの不等式): $b>0$ のとき, $X_1,\dots,X_m\in[0,b]$ は独立同時確率分布のシーケンスであり, $\bar X_m$ をこのシーケンスのサンプル平均とする: $\bar X_m=\frac{1}{m}(X_1+\dots+X_m)$. そして, $\zeta\in(0,1)$ の任意に対して,確率が少なくとも $1-\zeta$ 以上であるとき,

\[|\bar X_m - \mathbb{E}[X_1]| \le \sigma \sqrt{ \frac{2\log(2/\zeta)}{m}} + \frac{2}{3} \frac{b \log(2/\zeta)}{m},\]

ただし, $\sigma^2=\text{Var}(X_1)$ .


期待値を定めるために,このバウンドをHoeffdingの不等式と比較することが有用です.特に, 補題の設定でもHoeffdingの不等式が適用され,以下を与えます.

\[|\bar X_m - \mathbb{E}[X_1]| \le b \sqrt{ \frac{\log(2/\zeta)}{2m}}\.\]

私たちの場合, $b=H$(値関数は $[0,H]$ の間隔で値を取る)であるため, 最適なサンプルサイズを生成する $m=H^3/\delta^2$ を使用すると, Hoeffdingの不等式は $H H^{-3/2}\delta = H^{-1/2}\delta$ のサイズの制限を与えます(cf. \eqref{eq:vbound}). これは問題です:理想的には,ここでは $H^{-1}\delta$ を見たいです. なぜなら, 不等式 \eqref{eq:vdeb} に $H$ 係数を導入するためです. すぐにわかるのは, Bernsteinの不等式が違いを作るには, Bernsteinの不等式の最初の項にだけ焦点を当てることで, $\sigma=O(H^{1/2})$ が必要であることです.実際, $b/m=H^{-2}\delta^2 = o(H^{-1}\delta)$ であるため, これはサンプルサイズの制限から $H$ 係数を除くことも十分です. 残るのは, 分散がこのように小さくなるかどうかを見ることです.

これを知るには,状態-行動対 $(s,a)$ を固定し, $(s,a)$ で次の状態のi.i.d.シーケンス $S_1’,\dots,S_m’ \sim P_a(s)$ を生成します.

$((\hat P-P) v^\pi)(s,a)=(\hat P_a(s)-P_a(s))v^\pi$ は, 次の分布と同じです.

\[\Delta(s,a)=\frac{1}{m} \sum_{i=1}^m v^\pi(S_i') - P_a(s) v^{\pi},\]

$X_i = v^\pi(S_i’)$ を定義し, \(\sigma^2_\pi(s,a)=\mathrm{Var}(X_1)\) とすると, Bernsteinの不等式を用いて $((\hat P-P) v^\pi)(s,a)$ を制限する際に, $\sigma_\pi(s,a)$ が現れることがわかります. 残るのは, $\sigma_\pi(s,a)$ がどのような値をとることができるかを見ることです. 残念ながら, $\sigma_\pi(s,a)$ の範囲も, 時には$H$と同じ大きさになることがすぐに分かります. それではBernsteinの不等式は行き詰まりますか?

もちろんそうではありません. そうでなければ, 私たちは導入しないでしょう. 特に, 次のように,

\[\delta(v^\pi) = (I-\gamma P_\pi)^{-1} M_\pi (P-\hat P) v^{\pi} ,\]

の最大ノルムを直接制限することで, より良い制限が可能です. 実際,値差の補題 \eqref{eq:vdpd} から $v^\pi - \hat v^\pi = \gamma \delta(\hat v^\pi)$ が成り立ち, そのため

\[v^\pi - \hat v^\pi = \gamma \delta(v^\pi) + \gamma( \delta(\hat v^\pi)-\delta(v^\pi)),\]

右辺の第2項は $O(1/m)$ である $(P-\hat P)(\hat v^\pi-v^\pi)$ がそこに現れており, $P-\hat P$ と $\hat v^\pi - v^\pi$ の両方が $O(1/\sqrt{m})$ であることがわかっているため, $\delta(v^\pi)$ を $O(1/\sqrt{m})$ であると期待するので, この項に注目します.

簡潔化のために, $\pi$ が固定された非ランダム方策( $\pi=\pi^*$ で $\delta(v^\pi)$ を制限し, $\pi=\hat \pi$ でも制限しなければならない. $\pi=\hat \pi$ はランダム)の場合を考えます. この場合, Bernsteinの不等式を使用したユニオンバウンドと, 確率 $1-\zeta$ で, 次が成立します.

\[\begin{align*} |(P-\hat P) v^{\pi}| & \le \sqrt{ \frac{2\log(2SA/\zeta)}{m} } \sigma_\pi + \frac{2H}{3} \frac{\log(2/\zeta)}{m} \boldsymbol{1}, \end{align*}\]

両辺を $(I-\gamma P_\pi)^{-1} M_\pi$ で乗算し, 三角不等式と $(I-\gamma P_\pi)^{-1} M_\pi$ の特殊な性質を使用すると, 次が得られます.

\(\begin{align} |\delta(v^\pi)| & \le (I-\gamma P_\pi)^{-1} M_\pi |(P-\hat P) v^{\pi}| \nonumber & \le \sqrt{ \frac{2\log(2SA/\zeta)}{m} } (I-\gamma P_\pi)^{-1} M_\pi \sigma_\pi + \frac{2H^2}{3} \frac{\log(2SA/\zeta)}{m} \boldsymbol{1}, \label{eq:dvpib} \end{align}\)

次の美しい結果は, 証明を省略しますが, 上記の表示の右側に現れる最初の項に対する $O(H^{3/2})$ の上界を与えます.:


補題 (総割引分散のバウンド): 任意の割引MDP $M$ と $M$ での方策 $\pi$ , \(\|(I-\gamma P_\pi)^{-1} M_\pi \sigma_{\pi} \|_\infty \le \sqrt{ \frac{2}{(1-\gamma)^3}}\)


ここで得られる上界が $H^{3/2}$ であり, $H^2$ ではないため,”私たちは救われました”. 実際に, これを \eqref{eq:dvpib} に代入すると,

\[|| \delta(v^\pi) ||_\infty \le 2\sqrt{ \frac{H^3\log(2SA/\zeta)}{m} } + \frac{2H^2}{3} \frac{\log(2SA/\zeta)}{m} ,,\]

が $1-\zeta$ の確率で成立することがわかります. $m=H^3/\delta^2$ を選択すると, 両方の項が $O(\delta)$ であることがわかります. $\pi = \hat \pi$ の場合に同様の結果が得られることを示すことが残っています. 前に使用したユニオンバウンドを使用すると, $S$ の倍の係数が導入されます. この $S$ の倍の係数を回避するには, 新しいアイデアが必要ですが, これらを使用すると, 次の結果が得られます.


Theorem ($Z$-計画法の上界):

$\hat \pi$ を, 状態-行動対の状態からの $m$ 個の次の状態をもとに推定される遷移カーネル $\hat P$ を持つMDPの最適方策とします. $0\le \zeta <1$,$0\le \delta \le \sqrt{H}$ としたとき,

\[m \ge \frac{ c \gamma H^3 \log(SAH/\delta) }{\delta^2}\]

が成立する場合, $1-\zeta$ の確率で, $\hat \pi$ は $\delta$ -最適である. ここで,$c$ は汎用定数です. 簡単に言えば, $0\le \delta \le \sqrt{H}$ の任意の値に対して,一様な $Z$ -計画法の下で,

\[\tilde O\left( \frac{ \gamma SA H^3 }{ \delta^2 } \right)\]

個のサンプルから $\delta$ -最適方策を生成するアルゴリズムが存在する.


同じサンプルの複雑度が, $\delta$ のより大きな値(例えば, $\delta = H/2$ の場合)でも成立するかどうかは, まだ確認されていません.

$Z$-計画法の下界

次のような自然な質問があります. $H^3 SA/\delta^2$ の上界を改善することはできるでしょうか. またはこの上界を下界で満たすことはできるでしょうか. その答えについては, 次の結果があります.


定理 ($Z$-計画法の下界): $Z$ -計画法を使用して, $\delta$ -最適方策を保証するアルゴリズムは, 少なくとも $\Omega( H^3 SA/\delta^2)$ 個のサンプルが必要です.


証明 (sketch):

これまでの上界の証明で, 3次依存性を達成するための鍵は, $m$ 個の独立した制限付きの乱数のサンプル平均 $\bar X_m$ が真の平均との距離 $\sigma \sqrt{1/m}$ 以内にあることであることを見てきました. ある意味では, これは逆もまた真である:サンプルと真の平均の間の距離がこれほど大きいことは「かなりありそう」です. これは, $X_i$ が正規分布に従う場合や, $X_i$ がベルヌーイ分布に従う場合など, 特定の分布については簡単に示すことができます(これは中心極限定理の本質であるとも言えますが, 中心極限定理は $m\to\infty$ の場合に限られます).

そのような状態で, これは下界を確立するためにどのように使用できるでしょうか? MDP では, ランダム性は報酬か遷移から来ます. しかし, 上記の上界では, 報酬が与えられるので, ランダムの源は遷移だけです. さらに3次依存性は, 状態の数が定数である場合でも保たなければなりません. これらすべてが意味するのは, いくつかの状態で遷移構造を学習することが, $\gamma\to 1$ (または $H\to \infty$ )の場合にサンプル数が大きくなる理由であるということです.

drawing

明らかに, これは(小さい)MDPが自己ループを持つ場合にのみ起こり得ます. 自己ループを持つMDPの最小の例は, ある行動と状態があり, その状態からその行動を取ると, 一定の確率で同じ行動に遷移し, 残りの確率で別の状態に遷移する場合です. これは, 右側の図に示す構造をもたらします.

これから見られるように, 2つの状態があります. 最初の状態を状態1と呼びます. 状態1は確率$p$で自分自身に, 確率 $1-p$ で状態2に移行する確率変数的であり, 両方の移行には報酬が $1$ が付与されます. 2番目の状態を状態2と呼びます. 状態2は自己ループを持っており, この移行に対する報酬は0です.

行動(あるいは両方の状態で1つの行動)はありません. しかし, $p$ が分からない状態で, 状態1の価値を $\delta$ の精度で推定するのに $\Omega(H^3/\delta^2)$ サンプルが必要であることを示せば, サンプル数の上界の結果が得られます. 具体的には, 同じ2つの状態を使って構造 $A$ 回繰り返すと, これらの行動の1つの価値を他の行動と比較して(たとえば) $2\delta$ 異なるように少しだけ異なるようにすることができます. そして, 構造により, 状態1で $\Omega(A H^3/\delta^2)$ 以下のサンプルを使用する学習者は, 特別な行動の価値と他の行動の価値を信頼できるように区別できず, そのため正しい行動を選択することができず, $\delta$ 最適な方策を生成することができません. 状態に依存するものも追加するには, 構造を $S$ 回繰り返すことができます. そのため, 状態1の価値を推定するために上記のサンプル数の上界の結果が保持されるかどうかを確認する必要があります. 形式的な証明を与える代わりに, より直観的に理解しやすいように簡単なヒューリスティック的な議論を行います.

サンプル数の問題は, 推定問題において本質的には, 推定する量が未知のパラメーターに対してどの程度敏感であるかという問題です.

ここで感度とは, 基礎となるパラメータを変えると, 量がどの程度変化するかを意味します. この感度は, 1つのパラメータに対して小さな偏差について, 興味ある量の導関数です.

特別な場合, 状態1の価値, それを $v_p(1)$ と呼ぶ( $p$ に依存していることも示す). 状態2の価値が0であるため, $v_p(1)$ は$v_p(1)=p(1+\gamma v_p(1))+(1-p)1$ を満たす必要があります. これを解くと,

\[v_p(1) = \frac{1}{1-p\gamma},\]

これに対する $p$ の導関数は

\[\frac{d}{d p} v_p(1) =\frac{\gamma}{(1-\gamma p)^2},\]

$v_{p_0}(1)$ を $\delta$ 以内に正確に推定するには, 次のことが必要です.

\[\begin{align*} \delta & \ge |v_{p_0}(1)-v_{\bar X_m}(1)| \approx \frac{d}{dp} v_p(1)|_{p=p_0} |p_0-\bar X_m| = \frac{\gamma}{(1-\gamma p_0)^2} |p_0-\bar X_m|\ & \approx \frac{\gamma}{(1-\gamma p_0)^2} \sqrt{ \frac{p_0(1-p_0)}{m}}, \end{align*}\]

$m$ について反転させると,

\[m \gtrsim \frac{\gamma^2 p_0(1-p_0)}{(1-\gamma p_0)^4 \delta^2},\]

$p_0$ を $\gamma$ の関数として, 上記を $1/(1-\gamma)^3$ 以下に下界を与えるように選ぶことが残っています. $p_0=\gamma$ を選ぶと,

\(1-\gamma p_0 = 1-\gamma^2 = (1-\gamma)(1+\gamma)\le 2(1-\gamma)\) そして, そのために

\[\frac{\gamma^2 p_0(1-p_0)}{(1-\gamma p_0)^4 \delta^2} \ge \frac{\gamma^2 \gamma(1-\gamma)}{2^4(1-\gamma)^4 \delta^2} = \frac{\gamma^3 }{2^4(1-\gamma)^3 \delta^2},\]

物事をまとめることで, 証明のスケッチが完了します. \(\qquad \blacksquare\) 宿題問題が含まれており, 証明の最後の章にどのように隙間を埋めるかを説明しています. また, 残りの隙間をどのように埋めるかを理解するために使用できる文献へのポインタも与えられています.

方策ベースの計画

データがいくつかの方策に従って生成される場合, 方策に基づく計画と言います. ここで計画決定は, データを生成するために使用する方策です.方策に基づく計画での学習のサンプル数は, データを生成する方策に従っているデータを基に, 固定された初期状態から, 固定された目標の準最適性を特定するために必要で十分な観測数であり,データを生成する方策を実行するMDPは, クラス内の任意のMDPである場合, アルゴリズムが何を使用するかを計算する方法です.

3つの質問が生じます. (i) 最初の質問(計画の質問)は, データ収集中にどの方策に従うかです. 方策が全部の履歴を使用できる場合, 問題はオンライン学習とほとんど変わりませんが, それは後ほど考えます. この観点からは, 興味深い(おそらくもっと現実的な)のは, データ収集方策がメモリーレスであり,データ収集が開始される前に固定されている場合です. したがって, 以下では, この場合に限って注目します. (ii) 2番目の質問は, 与えられたデータから方策を計算するために使用するアルゴリズムです. (iii) 最後の第3の質問は, 一定のMDPクラスに対して, 方策誘発データを使用して学習する際のサンプル複雑度がどの程度かです.

方策誘発データから良い方策を学習し, 推定することは, $Z$ 計画法から同じ問題を解決するよりもはるかに現実的です. 医療, ロボット工学などの実践的な問題は, ある固定の方策に従って生成されたデータを取得できるが, 通常は任意の状態・行動ペアからのサンプル遷移を要求することはできないというものです. 単純化のために, 我々はまだ有限の状態-行動MDPの場合を考えますが, さらに単純化するために, 今度はホライゾン $H$ がついた(同一カーネル)有限ホライゾンの問題を考えます. 実際には, 前の節のプラグインアルゴリズムは, 最適な(最小最大)サンプル複雑度を達成するという意味でも良いアルゴリズムです. しかし, 最小最大サンプル複雑度は, $Z$ 計画法よりもはるかに高いです.


定理 (方策誘発データからのサンプル複雑度の下界): 任意の $S,A,H$ , $0\le \delta$ について, 状態-行動空間 $[S]$ および $[A]$ 上の任意(メモリーレス)データ収集方策 $\pi$ に対して, $n\le c A^{\min(S-1,H)}/\delta^2$ であり, $n$ の遷移を持つデータから方策を映すアルゴリズム $\mathcal{L}$ が存在するとき, 状態空間 $[S]$ および行動空間 $[A]$ を持つMDP $M$ が存在し, $\mathcal{L}$ が $\pi$ に従って $M$ でデータを収集する場合, $\hat \pi$ の方策が $H$ -ホライゾン累積報酬基準に対して $\delta$ -最適でない可能性が定数である.


証明 (スケッチ): 一般性を失うことなく, $S=H+1$ と仮定します. 状態がもっと多い場合は, それらを無視し, 状態が少ない場合は$H$を減らします. 状態 ${1,\dots,H}$ がいくつかの行動の影響下でチェーン状に整理され, 状態 $H+1$ が終了状態であり, 関連付けられた報酬が0のMDPを考えます. drawing

$1\le i \le H$ に対して, データ生成方策 $\pi$ によって状態 $i$ で最も小さい確率で選択される行動 $a_i$ を定義します: $a_i = \arg\min_{a\in [A]} \pi(a|i)$ . 私たちは状態 $i$ から状態 $i+1$ に移動する行動として, $a_i$ を選択します. 他のすべての行動は, 決定的に状態 $H+1$ に導きます. 行動 $a_H$ で状態 $H$ から状態 $H+1$ に遷移する場合を除いて, すべての報酬は0です. ここでの報酬は, 平均 $\mu$ ,分散1の正規分布に従って確率的に , $-2\delta$ または $+2\delta$ が得られます. MDPの構造は左側の図に示されています. $a_i$ の選択のため, $\pi(a_i|i)\le 1/A$ が成立します. したがって, 状態1から始めて, $H$ ステップの間 $\pi$ の方策を追って, 状態シーケンス $1,2,\dots,H,H+1$ が生成され, 特に状態 $H$ から状態 $H+1$ への重要な遷移が含まれる確率は, 最大で $(1/A)^H$ です. この遷移は, 状態 $1$ で行動 $a_1$ を取るのが良い選択かどうかを決定するためにのみデータが使用されるため, 重要であるとされます. 特に, $\mu=-2\delta$ の場合, $a_1$ を選択することは悪い選択であり, $\mu=2\delta$ の場合, $a_1$ を選択することは最適な選択です. この重要な遷移が見られる期待回数は $m=n(1/A)^H$ 以下である. $m$ 回の観察で, $\mu$ の値は $O(\sqrt{1/m})$ の精度で推定されます. これが $2\delta$ より小さい場合, 定数の確率で $\mu$ の符号が決定できなくなり, そのため定数の確率で, どのアルゴリズムも状態 $1$ で行動 $a_1$ を取るべきかどうかを特定できなくなります(確率が少なくとも$1/2$). 期待値 $m$ を代入すると, $n$ の条件は $\sqrt{c A^H/n}\le 2\delta$ であり, $c>0$ は定数です. 同等に, 条件は $n\ge c A^H/(4\delta^2)$ であり, これが証明することです. \(\qquad \blacksquare\)

MDPに関する追加情報がない場合に使用する最適な方策は, 一様方策であることが下界構成から示されています. 割引設定においても同様のことが言えます. 前の節の多項式上界とこの下界との比較は明らかな対照です:方策に従って得られたデータは非常に悪いことがあります. データが良好な方策($2\delta$最適な方策など)から得られた場合には, 状況は改善できるのでしょうか? しかし, 前の結果の証明は実際にはそうではないことを示しています.

方策によって引き起こされるデータから学習するためのサンプル数の指数的な下界がすでに十分に悪いことであるにもかかわらず, 状況がさらに悪い可能性について心配することができます. 最良のアルゴリズムが二重指数的なサンプル数を必要とすることはありますか? それとも無限ですか? 一瞬考えると, 後者の場合は平均報酬設定に切り替えることで起こります. これは, 平均報酬設定では, 行動の価値は任意の固定された遷移数内での打ち切り確率が非常に低いが非常に低い状態の価値に依存するためです. 有限時間設定や割引設定でも同様のことは起こりうるでしょうか? 実際, 答えはいいえです. 前の下界は, 方策によって引き起こされるデータを使用して近似最適な方策を見つけるためのサンプル数の計算量の正確な順序を示しています.

このように, 方策によって生成されるデータから学習する場合, サンプル数が指数的に必要になり, 良い方策からデータを取得しても状況は改善しないことがわかりました. また, 平均報酬設定では, データ収集において足りない情報が多いため, 最適な方策を見つけることが不可能になります. しかし, 有限時間設定や割引設定では, サンプル数の要求は合理的であることが示されています.


定理2 (方策誘導データのサンプル複雑度の上界): 以下は, $m=\Omega(S^3 H^4 A^{\min(H,S-1)+2}/\delta^2)$ 回のエピソードを, 初期分布 $\mu$ からの一様な方策で収集し, 一定の確率でプラグインアルゴリズムが $\delta$ -最適な方策を生成することを示す証明の要約です.


証明 (スケッチ):

報酬関数が既知であると仮定し, $\pi_{\log}$ をログ方策とし, プラグインアルゴリズムが決定的な方策を生成すると仮定します.

証明は, 生成された方策 $\hat \pi$ の準最適の差の分解に基づいています. 特に, 式 \eqref{eq:subbd}より,

\[\begin{align} v^*(\mu) - v^{\hat \pi}(\mu) & \le v^{\pi^*}(\mu) - \hat v^{\pi^*}(\mu) \, + \, \hat v^{\hat \pi}(\mu) - v^{\hat \pi}(\mu)\,, \label{eq:subbd2} \end{align}\]

ここで, $\hat v^\pi$ は $\pi$ の方策の評価関数, $v(\mu)$ は $\mu$ 上の状態の集合に対する $v$ の集合, つまり $\sum_s \mu(s) v(s) (= \langle \mu, v \rangle)$,$v:[S]\to \mathbb{R}$.

次に, 値差の補題を用意する必要があります. この場合, 次のことが便利です. 任意の方策 $\pi$ の場合,

\[q^\pi_H-\hat q^\pi_H = \sum_{h=0}^{H-1} (P_\pi)^h (P-\hat P) \hat v_{H-h-1}^\pi\,,\]

そして,

\[\hat q^\pi_H- q^\pi_H = \sum_{h=0}^{H-1} (\hat P_\pi)^h (\hat P-P) v_{H-h-1}^\pi\,,\]

ここで, $P_\pi$ と $\hat P_\pi$ は $SA \times SA$ の行列であり, 行動価値関数のベルマン方程式と簡単な再帰を使用し, $q_0 = r = \hat q_0$ を用いることで証明できます.

次に, $v^\pi(\mu) = \langle \mu^\pi, q^\pi \rangle$ であり, $\mu^\pi$ は $(s,a)\in [S]\times [A]$ に対して $\mu(s)\pi(a|s)$ の確率を割り当てる $[S]\times [A]$ 上の分布であることが分かります. これは, $\nu_h^\pi:=\mu^\pi (P_\pi)^h$ が制限で登場することになります. $\mu^\pi$ の初期分布で $\pi$ を $h$ 回使用した後の状態-行動空間上の確率分布です. 現在, $P-\hat P$ によって乗算されるため, 誘導された状態-行動ペア $(s,a)$ に対して, \(| P(s,a)-\hat P(s,a) |1 \lesssim 1/\sqrt{N(s,a)} \le 1/\sqrt{N_h(s,a)} \approx 1/\sqrt{m \nu_h^{\pi{\log}}}\) , $N(s,a)$ はデータで見られる回数, $\nu_h^\pi(s,a)/\nu_h^{\pi_{\log}}(s,a)$ の比が制御されることが必要である.

上記で, $N(s,a)$ はデータで見られる $(s,a)$ の回数, $N_h(s,a)$ は $h$ 番目の変換で見られる $(s,a)$ の回数である. ここでは, $\nu_h^{\pi}(s,a)\gtrsim 1/m$ を満たす状態-行動ペア $(s,a)$ の場合にのみこれらの項を制御し,それ以外の状態-行動ペアは $O(1/m)$ であるため,小さいことに注意する必要があります. これらの状態-行動ペアについて, $\nu_h^{\pi_{\log}}(s,a)$ は正であり, 高い確率で, カウントも正です.

次に, \(\rho_h^\pi(s,a)\le A^{\min(h+1,S)},.\)

これは2つのステップで行われます. まず, $\nu_h^{\pi}(s,a) \le A^{h+1} \nu_h^{\pi_{\log}}(s,a)$ を示します. これは合計確率の法則によるものです. $\nu_h^{\pi}(s,a)$ を $h$ 番目の変換で $(s,a)$ に終わるすべての軌道の確率の和として書きます. 次に, 特定の軌道に対して, 各発生を $\pi_{\log}$ で置き換え, $A^{h+1}$ の因数を導入します(これは $\pi(a’|s’)\le 1 \le A \pi_{\log}(a’|s’)$ から来ます). 次のステップは, $\nu_h^{\pi}(s,a) \le A^{S} \nu_h^{\pi_{\log}}(s,a)$ も成立することを示すことです. この不等式は, 一様方策とすべての混合一様な決定的(記憶型)方策が軌道上の分布を引き起こすことを観察して, 一様方策と混合一様方策が同じ分布を引き起こすことを示すことで得られます. そして, $\textrm{DET}$ をすべての決定的な方策の集合とし, $\pi\in \textrm{DET}$ を使用することで, $\nu_h^{\pi}(s,a)\le \sum_{\pi’ \in \textrm{DET}} \nu_h^{\pi’}(s,a) =A^S \nu_h^{\pi_{\log}}(s,a)$ が成立します.ここで, $\vert \textrm{DET} \vert =A^S$ が使用されます.

これらをまとめて, $\hat \pi$ についてのユニオンバウンドを使用して項をまとめることで結果が得られます. \(\qquad \blacksquare\)

参考文献

$Z$ 計画法から取られたサンプルから良い方策を見つけることと, MDPの生成モデルランダムアクセスシミュレータを使ってサンプルから良い方策を見つけることはほぼ同じである. ただし, ランダムアクセスモデルを使用することで, 学習者は次の遷移データを生成するべき状態-行動ペアを決定できるようになります. したがって, ランダムアクセスシミュレータを使用して良い方策を計算することで, “学習者”(またはプランナー)により多くのパワーが与えられます. $Z$ 計画法に対する下界は, 実際には生成設定においても成立することが示されており, (論文で引用されている証明はこの場合において変更なく通じます), これはテーブル形式の場合には適応ランダムアクセスシミュレータを使用することで, プランナーに対して非適応ランダムアクセスよりもメリットはありません. 一様な $Z$ 計画でプラグインメソッドを使用して, $\delta$-最適な方策を見つけるための $O(H^3 SA/\delta^2)$ のサンプル数の下限の結果は以下の論文から得られています :

  • Agarwal, Alekh, Sham Kakade, and Lin F. Yang. 2020. “Model-Based Reinforcement Learning with a Generative Model Is Minimax Optimal.” COLT, 67–83. arXiv link

この論文には, 文献への複数のポインターも含まれています. 興味深いことに, 早期のアプローチでは, プラグインアプローチよりも自然な方法である価値関数を直接扱うよりも複雑なアプローチを使用していました. プラグインメソッドが $Z$ 計画の有限時間問題において最小最大最適であるかどうかの問題は未解決です.

この講義で含まれていた結果は, $\delta$ の範囲を $\sqrt{H}$ に制限します. 同等に, その結果は状態-行動ペアごとの観測数が少ない場合には適用されません. この制限は, この作業のフォローアップにて解除されています:

  • Li, Gen, Yuting Wei, Yuejie Chi, Yuantao Gu, and Yuxin Chen. 2020. “Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model.” NeurIPS

この論文はまだプラグインメソッドを使っているが, 観測した報酬にノイズを加えている.

次の論文は, ホライゾンに対して3次の依存性を達成するための鍵となる分散バウンド :

  • Mohammad Gheshlaghi Azar, Rémi Munos, and Hilbert J Kappen. Minimax PAC bounds on the sample complexity of reinforcement learning with a generative model. Machine learning, 91(3):325–349, 2013.

この論文には、一致する下界に必要な基本的なアイデアも含まれています. 2020年の論文は, この講義では含まれていないエラー項を制限するために開発された新しい証明テクニックの一部について特に注目すべきです.

方策誘導データからの結果は

  • Xiao, Chenjun, Ilbin Lee, Bo Dai, Dale Schuurmans, and Csaba Szepesvari. 2021. “On the Sample Complexity of Batch Reinforcement Learning with Policy-Induced Data.” arXiv

これには, ノートで省略された詳細が含まれています. この論文はまた, $Z$-計画法サンプル複雑度の下界に対する新しい証明も提供しています.

$Z$-計画法において、ホライゾン $H$ に対する3次の依存性を示す結果が, 値関数近似が使用される大きなMDPの場合に拡張されるかどうか疑問に思うかもしれません. In a special case, this has been positively resolved in the following paper: 特別な場合, これらは次の論文で解かれます.

  • Yang, Lin F., and Mengdi Wang. 2019. “Sample-Optimal Parametric Q-Learning Using Linearly Additive Features.” ICML arXiv version

これはポリテックスで多くの制限された設定のもとに似た手法を使うが, $H$ 依存を達成している.