13. APIからPolitexへ

近似方策反復の講義の中で、任意のMDPと特徴マップのペア $(M,\phi)$ と $\varepsilon’>0$ について、準最適目標を満たし、実行時間が

\[\text{poly}\left( d, \frac{1}{1-\gamma}, A, \frac{1}{\varepsilon'} \right)\,,\]

であるような、$G$-最適計画を用いた最小二乗方策反復法 (LSPI-G) は、方策 $\pi$ についての準最適ギャップ $\delta$ が以下を満たすような $\pi$ を出力できることを証明した。

\[\begin{align} \delta \le \frac{2(1+\sqrt{d})}{(1-\gamma)^{\color{red} 2}} \varepsilon + \varepsilon'\,. \label{eq:lspiup} \end{align}\]

ただし、 $\varepsilon$ は $d$ 次元の特徴がMDP $M$ のメモリーレス方策の行動価値関数を近似する際の最悪誤差である。実際、この結果は私たちがメモリーレス方策について $\phi$-測定可能 、つまり方策がある状態 $s$ である行動 $a$ を取る確率は $\phi(s,\cdot)$ にのみ依存すると約束している限り成り立ち続ける。以下、そのような方策の集合を $\Pi_\phi$ で表す。

このとき、MDP $M$ とそれに関連付けられた特徴マップ $\phi$ について、

\[\tilde\varepsilon(M,\phi) = \sup_{\pi \in \Pi_\phi}\inf_{\theta} \|\Phi \theta - q^\pi\|_\infty\,\]

とする。 LSPIが $\phi$-測定可能な方策しか出力しないことに注意して証明 (訳注: 近似方策反復の講義中の証明のことと思われる) を確認すると、最初に用いる方策も $\phi$-測定可能であるとすれば、式 \eqref{eq:lspiup} 中の $\varepsilon$ は $\tilde \varepsilon(M,\phi)$ で置き換えることができる。

以前に、$\varepsilon$ にかかる係数 $\sqrt{d}$ は どんな 効率的なプランナーをもってしても回避不能であることも証明した。しかしながら、$1/(1-\gamma)$ の多項式乗による増幅が必要なのか、特に二乗に依存することが必要なのかどうかは未解決問題である。以下に証明なしで示す私たちの最初の結果は、LSPIについて考える場合、この増幅は本質的なものであり、二乗への依存は改善できないことを示す。

定理 (LSPIの誤差増幅の下界): 式 \eqref{eq:lspiup} 中の二乗への依存はタイトである: 全ての $0\le \gamma<1$ と $\varepsilon>0$ について、”featurized-MDP” $(M,\phi)$、そのMDPの方策 $\pi$ が存在し、ある定数 $c>0$ について以下を満たす。

\[\inf_{k\ge 1} \mu (v^*-v^{\pi_k}) \ge \frac{c\tilde\varepsilon(M,\phi)}{(1-\gamma)^2}\,.\]

ただし、 $\mu$ は、LSPIが無限の長さの無限回のロールアウトを許された時に方策の系列 $\pi_0=\pi,\pi_1,\dots$ を生成するような状態上の分布である。

この定理の結果は、LSPIが 状態集約 と共に用いられた場合にも成り立つ。直感的には、状態集約は状態をいくつかのグループに分け、同じグループに属する状態は価値関数を表現する際に同一のものとして取り扱われることを意味する。この場合、状態集約に基づく価値関数は任意のグループにおいて一定となる。状態価値関数について考えるとき、状態集合 $\mathcal{S}$ をグループ $\{\mathcal{S}_i\}_{1\le i \le d}$ (すなわち、 $\mathcal{S}_i\subset \mathcal{S}$ であり、全ての部分集合は互いに素) に分割することに基づいて状態を集約するとして、これらの区分的定数関数を表現できる特徴マップは以下のようになる。

\[\phi_i(s) = \mathbb{I}(s\in \mathcal{S}_i)\,, \qquad i\in [d]\,,\]

ただし、$\mathbb{I}$ は指示関数であり、その引数（論理式）が真のとき1を取り、それ以外で0を取る。言い換えれば、$\phi: \mathcal{S} \to \{ e_1,\dots,e_d\}$ である. この形式の任意の特徴マップは状態空間の分割を定義し、すなわち状態集約に一致する。なお、区分的定数関数は、全ての特徴を同じように回転させることによっても表現できる。ここで重要なのは、異なる状態の特徴が同一か、もしくは互いに直交していることで、特徴行列の行が直交系になることである。

行動価値関数を近似する場合は、状態集約は行動にかかわらず同じ状態分割を行う: 事実上、各行動について、上記のような特徴マップを用いるが、プライベートなパラメータベクトルを持つことになる。これは事実上、 $\phi(s)$ を $\mathrm{A}$ 回積み重ねて、各行動 $a\in \mathcal{A}$ ごとに1枚ずつ取得することに相当する。尚、状態集約については、近似誤差に対する $\sqrt{d}$ の増幅が発生しない: 講義の最後にも説明するように、状態集約は外挿に強い。

先の結果に戻って、実際の証明を調べると、この場合にはLSPIは初期方策と $\pi_1$ を交互に繰り返すような方策の系列を導くことがわかる。これは”収束”は早いものの、保証は十分とは言えない。特に、同じ例について、次に説明する別のアルゴリズムでは、ホライゾンに対する二乗依存を線形依存に減らすことができる。

Politex

Politexの名前は、Policy Iteration with Expert Adviceから来ている。 “featurized-MDP” $(M,\phi)$ 、状態行動特徴マップ $\phi$、シミュレータへのアクセス、$\phi$のための $G$-最適計画 $\mathcal{C}\subset \mathcal{S}\times\mathcal{A}$ が与えられたと仮定する。

Politexは方策の系列 $\pi_0,\pi_1,\dots$ を生成し、それは $k\ge 1$ について、以下を満たす。

\[\pi_k(a|s) \propto \exp\left( \eta \bar q_{k-1}(s,a)\right)\,,\]

ただし、

\[\bar q_{k} = \hat q_0 + \dots + \hat q_k,\]

また

\[\hat q_j = \Pi \Phi \hat \theta_j,\]

ここで、 $j\ge 0$ に関して、 $\hat\theta_j$ はG-最適計画に基づく最小二乗方策評価アルゴリズム (LSPE-G) を用いて方策 $\pi_j$ を評価することで得られたパラメータベクトルである (この講義を参照)。特に、このアルゴリズムは方策 $\pi_j$ をG-最適計画の地点からロールアウトすることで $m$ 個の長さ $H$ の独立な軌道を生成し、それらの計画地点の平均収益を計算し、これらの特徴を得られた値を回帰するために用いて (重み付き) 最小二乗回帰問題を解くことを思い出して欲しい。

ここで, $\Pi : \mathbb{R}^{(\mathcal{S}\times\mathcal{A})\times(\mathcal{S}\times\mathcal{A})} \to \mathbb{R}^{(\mathcal{S}\times\mathcal{A})\times(\mathcal{S}\times\mathcal{A})}$ はその引数を $[0,1/(1-\gamma)]$ の区間に入るように切り捨てる:

\[(\Pi q)(s,a) = \max(\min( q(s,a), 1/(1-\gamma)), 0), \qquad (s,a) \in \mathcal{S}\times \mathcal{A}\,.\]

なお、$\pi_k(a\vert s)$ を計算するためには、$E_k(s,a)=\exp\left( \eta \phi(s,a)^\top \bar \theta_{k-1}\right)$ を計算したのちに $\pi_k(a\vert s) = E_k(s,a)/\sum_{a'} E_k(s,a')$ を計算しなければならないことに注意。

方策反復と異なり、Politexにより $k$ イテレーションの後出力される方策は “混合方策”

\[\bar \pi_k = \frac{1}{k} (\pi_0+\dots+\pi_{k-1})\,,\]

か、もしくは初期状態ないし初期分布に関する最適値を与える方策となる。簡単のために、$\bar \pi_k$ が出力として用いられる場合のみを考えよう。混合方策の意味とは、単に$k$ 個の方策の1つを一様ランダムに選択し、それ以降選択された方策に従うということである。宿題 3 はこれに明確な定義を与え、 $\bar \pi_k$ の価値関数は単にその構成要素となる方策の価値関数の平均となることを証明するように求める:

\[\begin{align} v^{\bar \pi_k} = \frac1k \left(v^{\pi_0}+\dots+v^{\pi_{k-1}}\right)\,. \label{eq:avgpol} \end{align}\]

ここで、$\bar \pi_k$ の準最適ギャップの近似誤差に対する依存は、近似方策反復の場合と異なり、$1/(1-\gamma)$ にのみ比例することについて議論する。

このために、価値差分方程式について思い出して欲しい。

\[v^{\pi^*} - v^{\pi_j} = (I-\gamma P_{\pi^*})^{-1} \left[T_{\pi^*} v^{\pi_j} - v^{\pi_j} \right]\,.\]

まとめると、$k$ で割り、\eqref{eq:avgpol} を用いることで

\[v^{\pi^*} - v^{\bar \pi_k} = \frac1k (I-\gamma P_{\pi^*})^{-1} \sum_{j=0}^{k-1} T_{\pi^*} v^{\pi_j} - v^{\pi_j}\,.\]

今, $T_{\pi^*} v^{\pi_j} = M_{\pi^*} (r+\gamma P v^{\pi_j}) = M_{\pi^*} q^{\pi_j}$ である. また, $v^{\pi_j} = M_{\pi_j} q^{\pi_j}$ である. $\hat q_j = \Pi \Phi \hat \theta_j$ とする. 初歩的な代数計算によって、以下が導かれる。

\[\begin{align*} v^{\pi^*} - v^{\bar \pi_k} & = \frac1k (I-\gamma P_{\pi^*})^{-1} \sum_{j=0}^{k-1} M_{\pi^*} q^{\pi_j} - M_{\pi_j} q^{\pi_j}\\ & = \frac1k(I-\gamma P_{\pi^*})^{-1} \underbrace{ \sum_{j=0}^{k-1} M_{\pi^*} \hat q_j - M_{\pi_j} \hat q_j}_{T_1} + \underbrace{\frac1k (I-\gamma P_{\pi^*})^{-1} \sum_{j=0}^{k-1} ( M_{\pi^*} - M_{\pi_j} )( q^{\pi_j}-\hat q_j)}_{T_2} \,. \end{align*}\]

近似誤差 $\varepsilon_j = q^{\pi_j}-\hat q_j$ が $T_2$ の項の中にしか現れないことが確認できた. 特に、点ごとに絶対値を取り、三角不等式を用いることで、以下を得る。 $\|T_2\|_\infty \le \frac{2}{1-\gamma} \max_{0\le j \le k-1}\| \varepsilon_j\|_\infty\,,$

これは、望んだ通りの依存性を示している. $\|T_1\|_\infty$ が制御下にあるかどうかを示すことがまだ残っている. これについては次回の講義で扱う.

Notes

状態集約と外挿への適正

私たちの結果における $\sqrt{d}$ は線形予測の外挿誤差の制御から来ている。しかしながら、状態集約の場合には、この追加の $\sqrt{d}$ の誤差増幅は完全に回避することができる: 明らかに、関数を精度 $\varepsilon$ で測定し、各部分で最低1度の測定がある場合、各部分で測定した値 (そこにおける任意の状態で) をその部分全体で用いることで、最悪誤差は $\varepsilon$ で抑えられる。この場合の重み付き最小二乗法は、各部分の応答の重み付き平均を取って予測値とするだけなので、近似誤差の増幅も回避することができる。

この場合、外挿誤差に関する私たちの解析は明らかに保守的である。外挿誤差は2段階で制御される: 私たちの最初の補題では、$\rho$ で重み付けされた最小二乗法について、私たちは問題を $g(\rho)=\max_{z\in \mathcal{Z}} \| \phi(z) \|_{G_{\rho}^{-1}}$ の制御に落とした。ただし、$G_{\rho}$ は $\rho$ のモーメント行列である。実はこの補題の証明に原因がある: 証明をよく見ると、Jensenの不等式を適用することで不必要な項が導入されていることがわかる: 状態集約 (直行性を持つ特徴行列) の場合には、計画 $\rho$ が任意のグループをただ1度だけ選択するようなものである限り、以下が成り立つ。

\[\sum_{z' \in C} \varrho(z') \varepsilon(z') \varphi(z') = 1\,\]

従って、状態集約の場合には、幾つかの特徴マップが他のものよりも外挿に適していることがわかる。また、当然ながら、Kiefer-Wolfowitzの定理によれば、$\sqrt{d}$ は $\rho$ を最適化した場合に $g$ について私たちが得られる最小の値であることにも注意してほしい。

様々な特徴マップに対して、外挿誤差がどのような挙動を示すのかは、興味深い問題である。

Least-squares value iteration (LSVI)

宿題 2 では、課題3は最小二乗価値反復について扱った。このアルゴリズム (LSVI-Gと呼ぼう) はG-最適計画 (と行動価値関数) に基づいてベルマン作用素をランダム近似する。問題は、LSPI-Gに対して成り立つ結果と結果と類似のものをLSVI-Gについても示すことにある。すなわち、任意のMDPと特徴マップのペア $(M,\phi)$ と任意の準最適目標を達成する $\varepsilon’>0$ について、総実行時間が

\[\text{poly}\left( d, \frac{1}{1-\gamma}, A, \frac{1}{\varepsilon'} \right)\,,\]

であるような$G$-最適計画 (LSPI-G) に基づく最小二乗価値反復は、方策 $\pi$ の準最適ギャップ $\delta$ が以下を満たすような $\pi$ を出力できる。

\[\begin{align} \delta \le \frac{4(1+\sqrt{d})}{(1-\gamma)^{\color{red} 2}} \varepsilon_\text{BOO} + \varepsilon'\,. \label{eq:lsviup} \end{align}\]

このため、近似誤差のホライゾンへの依存はLSPIの際に得られたものと似たものになる。ただし、 $\varepsilon_\text{BOO}$ の定義はLSPIの解析の際に用いていたものとは異なる:

\[\varepsilon_{\text{BOO}} := \sup_{\theta}\inf_{\theta'} \| \Phi \theta' - T \Pi \Phi \theta \|_\infty\,.\]

ここで, $T$ は行動価値関数に関するベルマン最適作用素で、$\Pi$ は$f:\mathcal{S}\times \mathcal{A}\to \mathbb{R}$ について, $\Pi f$ もまた関数 $\mathcal{S}\times \mathcal{A}\to \mathbb{R}$ であり、$f$ から任意の入力 $(s,a)$ についてその価値 $f(s,a)$ を $[0,1/(1-\gamma)]$ の範囲内に切り捨てることによって得られる: $(\Pi(f))(s,a) = \max(\min( f(s,a), 1/(1-\gamma) ), 0)$. $\varepsilon_{\text{BOO}}$ の “BOO” は “Bellman-optimality operator” (ベルマン最適作用素) を表しており、定義中の $T$ の出現を示している。

一般に、LSPIにおける誤差基準 $\varepsilon$ と $\varepsilon_{\text{BOO}}$ は比較可能ではない。後者の量は”1ステップ誤差”を測定しており、一方 $\varepsilon$ は無限ホライゾンで定義された関数の近似について考えている。

線形 MDPs

各状態に対する報酬関数と次状態の分布が、特徴量が張る空間上にある時、 MDPは線形である と呼ぶ: $r = \Phi \theta_r$ が何らかの $\theta_r\in \mathbb{R}^d$ について成り立ち, 同様に $\mathrm{S}\mathrm{A}\times \mathrm{S}$ 行列は何らかの $W\in \mathbb{R}^{d\times \mathrm{S}}$ について $P = \Phi W$ の形式を取る。明らかに、これはMDPの”ダイナミクス” (報酬を含む) をどれだけ”圧縮”できるかを捉えた表記である。

MDPが線形の時, $\varepsilon_{\text{BOO}}=0$ である. この時、 $\varepsilon=0$ となる. より一般には、 $\zeta_r = \inf_{\theta}\| \Phi \theta_r - r \|_\infty$ と $\zeta_P=\inf_W \|\Phi W - P \|_\infty$ を定義すると, $\varepsilon_{\text{BOO}}\le \zeta_r + \zeta_P/(1-\gamma)$ と $\varepsilon\le \frac{1}{1-\gamma} (\zeta_r + \zeta_P/(1-\gamma))$ が成り立つことを確かめるのは難しくなく、方策反復 (とそのソフトバージョン) 及び価値反復が”有効な”アプローチであることを示している。しかしながら、私たちは上界を比較しているという事実を無視することで、MDP自身が圧縮可能な場合には価値反復が方策反復よりも優位である可能性も示している。これは、$q^*$ の計算を目的とする場合には、価値反復が”より直接的”であることを考えれば驚くようなことではない。しかし、行動価値関数が圧縮可能であっても、ダイナミクスはそうでない場合も存在する。

方策探索の目的関数の定常点

$J(\pi) = \mu v^\pi$ とする. あるメモリーレス方策の集合 $\Pi$ に対する $J$ の定常点は、任意の $\pi\in \Pi$ について以下を満たす

\[\langle \nabla J(\pi), \pi'- \pi \rangle \le 0\,.\]

$\phi$ が状態集約特徴量である時、任意の $J$ の定常点 $\pi$ は以下を満たすことが知られている。

\[\mu v^\pi \ge \mu v^* - \frac{4\varepsilon_{\text{apx}}}{1-\gamma}\,,\]

ただし、 $\varepsilon_{\text{apx}}$ は (訳注: 状態集約？) 特徴量を持つ$\phi$-測定可能方策の行動価値関数の最悪近似誤差として定義される (近似方策反復の解析の中で用いたものと同じ定数)。

ソフト方策反復

Politexは方策反復の”ソフトな”バージョンとみなすことができる。ソフト度合いは $\eta$ によって制御される: $\eta\to \infty$ の時、PolitexはLSPI-Gに一致する。これまでに見てきたように、この場合近似誤差はホライゾン $1/(1-\gamma)$ に二乗比例して増幅される。このため、ソフトに保つことが重要である。次回の講義で見るように、この代償として、準最適目標達成する価値への収束が比較的遅くなる。それにも関わらず、このアルゴリズムは、全ての関連する量について多項式であり続けることが約束されている。

References

Politexは以下の論文で導入された。

POLITEX: Regret Bounds for Policy Iteration using Expert Prediction. Abbasi-Yadkori, Y.; Bartlett, P.; Bhatia, K.; Lazic, N.; Szepesvári, C.; and Weisz, G. In ICML, pages 3692–3702, May 2019. pdf

しかしながら、この論文はアイデアの基礎はEven-Dar et alによるMDP-Eアルゴリズムにまで遡ることも述べている:

Even-Dar, E., Kakade, S. M., and Mansour, Y. Online Markov decision processes. Mathematics of Operations Research, 34(3):726–736, 2009.

このアルゴリズムは非定常報酬のテーブル形式MDPを考えている – 完全に異なる設定である。それにもかかわらず、この論文は上に示した議論の基礎を導入している。 Politexの論文はその議論が関数近似の場合にも拡張可能であることを指摘した。特に、近似誤差と推定誤差を厳密に制御できる限り、関数近似器の性質は無関係であることにも言及している。

Politexの論文はオンラインRLと平均報酬MDPについての解析を示した。どちらも、かなり複雑になってしまう。ここに示した議論は単純化されたものである。 Politexを割引ありの設定におけるLSPE-Gと結びつけることは自明ではあるが、これまで文献上で提示されたことはない。

ここで示した誤差の分解と関数近似を併用した最初の論文は以下である。

Abbasi-Yadkori, Y., Lazic, N., and Szepesvári, C. Modelfree linear quadratic control via reduction to expert prediction. In AISTATS, 2019.