8. 近似方策反復

Note: 5/13に、以下のような更新を行った:

よりタイトな上界の導出; 以前の解析は $\| q^*-q^{\pi_k} \|_\infty$ の上界を抑えることに基づいていた; 新たな解析は　$\| v^* - v^{\pi_k} \|_\infty$ を直接的に抑え、近似誤差への依存性を改善した;
ランダムな長さのロールアウトに基づく不偏リターン推定を導入した。

MDP上のプランニングにおいて関数近似を用いる際のシンプルなアイデアの1つは、内部的に価値関数を用いるプランニング法を採用し、それに価値関数が圧縮された表現になるように制限する制約を加えることである。

いつものように、2つの疑問が生じる:

この方法は効率的なプランナーを導くのか？すなわち、状態空間の大きさに依存せずに、関連する量の多項式時間で計算を実行することができるのか？線形関数の場合、係数を効率的に計算できるかどうかが問題になる。
この方法は効果的なプランナーを導くのか？特に、限られた計算リソースでどのくらい良い方策に到達できるのか？

この講義では、プランニングにおいて価値関数近似を用いる第一歩として、方策反復法を上記に述べたような方法で修正することを目指す。結果として得られるアルゴリズムは 近似方策反復法に属する。近似方策反復法は、方策反復法に近似を加えることで導出される全てのアルゴリズムのことを指す。

まず線形関数近似について考える。特に、プランナーにはヒントとして特徴マップ $\varphi: \mathcal{S}\times \mathcal{A}\to \mathbb{R}^d$ が与えられていると仮定する。この状況下では、方策反復法の成功は獲得された方策の評価にかかっているため、プランナーに与えられたヒントは、全ての方策の (行動) 価値関数がその特徴によってよく表現されている場合に “良い” とみなされる。

以下、前回の講義で導入した仮定 B2$_\varepsilon$ の元で話を進める。便宜上、ここに再掲する。以下では、 $\varepsilon>0$ を固定する。

仮定 B2$\mbox{}_{\varepsilon}$ (普遍的価値関数実現可能性) MDP $M$と特徴マップ $\varphi$ は、任意のメモリーレス方策$\pi$について、 $q^\pi \in_{\varepsilon} \mathcal{F}_\varphi$ を満たす.

表記$q^\pi \in_{\varepsilon} \mathcal{F}_\varphi$は、$q^\pi$について、特徴マップ $\varphi$ の基底関数の線型結合を用いて、誤差が一様に$\varepsilon$ で抑えられるような近似ができることを意味する。

すなわち任意の方策$\pi$について、

\[\begin{align*} \inf_{\theta\in \mathbb{R}^d} \max_{(s,a)} | q^\pi(s,a) - \langle \theta, \varphi(s,a) \rangle | \left(= \inf_{\theta\in \mathbb{R}^d} \| q^\pi - \Phi\theta \|_\infty\right) \le \varepsilon\,. \end{align*}\]

全ての方策についての価値関数が圧縮できると期待するのは妥当なのか、と疑問に思う人もいるかもしれない。この疑問については後ほど触れる。

近似方策評価: Done Well

方策反復法の $k$ ステップ目において方策 $\pi_k$ が与えられたとき、次のステップの方策 $\pi_{k+1}$ は $q^{\pi_k}$ に対する貪欲方策として得られることを思い出して欲しい。もし以下のような係数 $\theta_k\in \mathbb{R}^d$を見つけたなら

\[\begin{align*} q^{\pi_k} \approx \Phi \theta_k\,, \end{align*}\]

方策 $\pi_{k+1}$ を得るには単に行動が必要な状態 $s$ について$\arg\max_{a} \langle \theta_k,\varphi(s,a)\rangle$を取ればよい。そのような行動は (アクセスに $O(1)$ しかかからないという理想化のもとで) $O(d) $回の基本的な計算で得られ、(状態行動対の)テーブルを直接見ることと比べて小さな追加のオーバーヘッドで実行できる。

そこで、このパラメータを如何に効率的に求めるかが課題となる。より正確に言えば、$q^{\pi_k}$を近似する際の一様誤差を制御したい。

drawing 表記をシンプルにするために、以下 $\pi = \pi_k$と記述する. シンプルなアイデアは、ある集合 $\mathcal{C}\subset \mathcal{S}\times \mathcal{A}$ から方策 $\pi$ をロールアウトすることで、 $\mathcal{C}$ 中のペアにおける$\pi$の価値を”近似的に”計測することだ。具体的に、 $(s, a) \in \mathcal{C}$ について考える。このペアについて方策をロールアウトするというのは、初期状態$s$、最初の行動が$a$であるとき、以降の行動はどのような状態であっても方策$\pi$に基づいて決定しながら、連続した数ステップをシミュレータによってシミュレートするということを意味する。 $H$ステップのシミュレーションを行ったとき、$z = (s, a)$から始まる$m$個の軌跡が得られる。 $1\le j \le m$について、得られた軌跡を$\tau_\pi^{(j)}(s, a)$とする. すなわち,

$\begin{align*} \tau_\pi^{(j)}(s, a) = \left( S_0^{(j)}, A_0^{(j)}, S_1^{(j)}, A_1^{(j)}, \ldots, S_{H-1}^{(j)}, A_{H-1}^{(j)} \right)\, \end{align*}$,

ただし、 $S_0^{(j)}=s$, $A_0^{(j)}=a$であり、また $1\le t \le H-1$について、 $S_{t}^{(j)} \sim P_{A_t^{(j)}} ( S_{t-1}^{(j)} )$であり、 $A_t^{(j)} \sim \pi ( \cdot | S_{t}^{(j)} )$である. 右の図はこれらの軌跡を表している。

このとき、これらの軌跡に沿った報酬の割引和の経験平均が $q^\pi(z)$ を近似するために用いられる:

\[\begin{align} \hat R_m(z) = \frac{1}{m} \sum_{j=1}^m \sum_{t=0}^{H-1} \gamma^t r_{A_t^{(j)}}(S_t^{(j)}). \label{eq:petargetsbiased} \end{align}\]

報酬は$[0,1]$の範囲に収まり、$\hat{q}^\pi(z)$ の期待値は $q^\pi(z)$の$\gamma^H/(1-\gamma)$ 近傍に収まるという条件の元、多数の独立した軌跡の平均を取ることで、この経験平均がそれらの平均の周りに強く集中することを保証できる。

ランダム化に関する工夫を用いることで、軌跡を一定のステップで打ち切ることによる誤差 (“バイアス”) を取り除くことができる。このために、$(H^{(j)})_{j}$は独立かつ幾何分布に従う確率変数であり、同じく軌跡から独立に選ばれたパラメータ $1-\gamma$ を持つとする。定義より、$H^{(j)}$はパラメータ $1-\gamma$ のベルヌーイ試行が1回の成功を得るために必要な試行の数である。これらの変数を用いて、以下で$\hat R_m(z)$を定義する:

\[\begin{align} \hat R_m(z) = \frac{1}{m} \sum_{j=1}^m \sum_{t=0}^{H^{(j)}-1} r_{A_t^{(j)}}(S_t^{(j)})\,. \label{eq:petargetsunbiased} \end{align}\]

$\hat R_m(z)$の式から割引率が除かれていることに注意して欲しい。 $\hat R_m(z)$を計算するためには、単に前と同じように方策$\pi$をロールアウトし、各ステップ $t=0,1,\dots$ において $r_{A_t^{(j)}}(S_t^{(j)})$ を獲得した後パラメータ$ (1-\gamma)$ のベルヌーイ試行を行い、ロールアウトを継続するかどうかを決定するだけでよい。

上の定義がうまく機能することを確認するために、$j$を固定し、定義より$h\ge 1$について$\mathbb{P}(H^{(j)}=h) = \gamma^{h-1}(1-\gamma)$であり、また $\mathbb{P}(H^{(j)}\ge t+1) = \gamma^t$であることに注意する. 従って,

\[\begin{align*} \mathbb{E}[ \sum_{t=0}^{H^{(j)}-1} r_{A_t^{(j)}}(S_t^{(j)}) ] & = \sum_{t=0}^\infty \mathbb{E}[ \mathbb{I}\{ t \le H^{(j)}-1\} r_{A_t^{(j)}}(S_t^{(j)}) ] \\ & = \sum_{t=0}^\infty \mathbb{E}[ \mathbb{I}\{ t \le H^{(j)}-1\} ]\, \mathbb{E}[ r_{A_t^{(j)}}(S_t^{(j)}) ] \\ & = \sum_{t=0}^\infty \mathbb{P}( t+1 \le H^{(j)} )\, \mathbb{E}[ r_{A_t^{(j)}}(S_t^{(j)}) ] \\ & = \sum_{t=0}^\infty \gamma^t \mathbb{E}[ r_{A_t^{(j)}}(S_t^{(j)}) ] \\ & = q^\pi(z)\,. \end{align*}\]

結局のところ、以下の最小二乗問題を解いていることになり、

\[\begin{align} \hat\theta = \arg\min_{\theta\in \mathbb{R}^d} \sum_{z\in \mathcal{C}} \left( \langle \theta,\varphi(z) \rangle - \hat R_m(z)\right)^2\,, \label{eq:lse} \end{align}\]

$\Phi \hat\theta$ が $q^\pi$ の良い近似になることが期待される. これは少なくとも、計測を行った $\mathcal{C}$ 中の点においては成り立つことが期待できる。問題は $\mathcal{C}$ の外側でどうなるか: すなわち、点 $\mathcal{Z}:= \mathcal{S}\times \mathcal{A}$ に外挿した時どのような保証が得られるかである。まず第一に、$\mathcal{C}$ を慎重に選ばない限り、外挿時の誤差を制御できる保証はない。実際、全ての $\mathcal{C}$ 中の点の特徴ベクトルが同一になるような不幸な $\mathcal{C}$ の選択の元で、最小二乗問題は無数の解を持つ。

次の補題は、外挿時の誤差の明示的な上界を与える。今後の結果のために、$\eqref{eq:lse}$の多様な誤差に重みづけを導入することで、最小二乗問題を僅かに一般化する。このために、$\varrho: \mathcal{C} \to (0,\infty)$ を多様な誤差項に正の重みを割り当てる重み関数であるとし、また

\[\begin{align} \hat\theta = \arg\min_{\theta\in \mathbb{R}^d} \sum_{z\in \mathcal{C}} \varrho(z) \left( \langle \theta,\varphi(z) \rangle - \hat R_m(z)\right)^2 \label{eq:wlse} \end{align}\]

がそのような重み付き二乗誤差を最小化するとする。簡単な計算により、重み付きモーメント行列

\[\begin{align} G_\varrho = \sum_{z\in \mathcal{C}} \varrho(z) \varphi(z) \varphi(z)^\top \label{eq:mommx} \end{align}\]

が正則行列であるとき、上記の重み付き最小二乗問題の解はただ1つのみ存在し、以下の式が成り立つことがわかる

\[\hat{\theta} = G_\varrho^{-1} \sum_{z' \in C} \varrho(z') \hat R_m(z') \varphi(z')\,.\]

この式から、$\sum_{z\in \mathcal{C}} \varrho(z) = 1$のように重み付け関数の重みの合計が$1$であると仮定しても一般性を失わないことがわかる。これを $\varrho \in \Delta_1(\mathcal{C})$ で書く (ここで、$\Delta_1$は $\varrho$ が $|\mathcal{C}|-1$ 次元の確率単体の要素であることを表す)。補題について述べるために、正定値であるような$d\times d$ 行列 $Q$ とベクトル $x\in \mathbb{R}^d$ について、

\[\|x\|_Q^2 = x^\top Q x\,.\]

という表記を思い出して欲しい。

補題 (最小二乗法における外挿時の誤差の制御): $\theta \in \mathbb{R}^d$, $\varepsilon: \mathcal{Z} \rightarrow \mathbb{R}$, $\mathcal{C}\subset \mathcal{Z}$, $\varrho\in \Delta_1(\mathcal{C})$ をモーメント行列 $G_\varrho$ が正則であるような任意の値に固定する。ここで、

\[\begin{align*} \hat{\theta} = G_\varrho^{-1} \sum_{z' \in C} \varrho(z') \Big(\varphi(z')^\top \theta + \varepsilon(z') \Big) \varphi(z')\,. \end{align*}\]

このとき、任意の$z\in \mathcal{Z}$について

\[\left| \varphi(z)^\top \hat{\theta} - \varphi(z)^\top \theta \right| \leq \| \varphi(z) \|_{G_{\varrho}^{-1}}\, \max_{z' \in C} \left| \varepsilon(z') \right|\,.\]

証明の前に述べておくと、この補題が教えてくれるのは、モーメント行列がフルランクであることを保証する限り、ある $\theta\in \mathbb{R}^d$ で予測した場合の外挿誤差は以下を制御することで制御できるということである。

$g(\varrho):= \max_{z\in \mathcal{Z}} \| \varphi(z) \|_{G_{\varrho}^{-1}}$ の値;
重み付き最小二乗問題におけるターゲットと予測値 $\theta$ の最大偏差。

Proof: まず $\hat\theta$ を $\theta$ に関連付ける:

\[\begin{align*} \hat{\theta} &= G_\varrho^{-1} \sum_{z' \in C} \varrho(z') \Big(\varphi(z')^\top \theta + \varepsilon(z') \Big) \varphi(z') \\ &= G_\varrho^{-1} \left( \sum_{z' \in C} \varrho(z') \varphi(z') \varphi(z')^\top \right) \theta + G_\varrho^{-1} \sum_{z' \in C} \varrho(z') \varepsilon(z') \varphi(z') \\ &= \theta + G_\varrho^{-1} \sum_{z' \in C} \varrho(z') \varepsilon(z') \varphi(z'). \end{align*}\]

このとき, ある $z \in \mathcal{Z}$ について,

\[\begin{align*} \left| \varphi(z)^\top \hat{\theta} - \varphi(z)^\top \theta \right| &= \left| \sum_{z' \in C} \varrho(z') \varepsilon(z') \varphi(z)^\top G_\varrho^{-1} \varphi(z') \right| \\ &\leq \sum_{z' \in C} \varrho(z') | \varepsilon(z') | \cdot | \varphi(z)^\top G_\varrho^{-1} \varphi(z') | \\ &\leq \Big( \max_{z' \in C} |\varepsilon(z')| \Big) \sum_{z' \in C} \varrho(z') | \varphi(z)^\top G_\varrho^{-1} \varphi(z') |\,. \end{align*}\]

この総和を制御する方法を理解するために、総和中の $\varphi(z)$ が何らかの方法で $\varphi(z’)$ に置き換えられた時、$G_\varrho$ の定義を用いて最後の式を大きく簡略化できることに注意して欲しい。ここまで来ると、さらに絶対値の二乗の項があればよいことに気づくかもしれない。今、そのような二乗を得るために、イェンセンの不等式を思い出して欲しい。これは、任意の凸関数 $f$ と確率分布 $\mu$ について、$f \left(\int u \mu(du) \right) \leq \int f(u) \mu(du)$ が成り立つことを述べている。当然のことながら、この定理は今回のように $\mu$ が有限にサポートされた分布である時も成り立つ。よって、$f(x) = x^2$ に関してイェンセンの不等式を適用することで、以下を得る。

\[\begin{align*} \left(\sum_{z' \in C} \varrho(z') | \varphi(z)^\top G_\varrho^{-1} \varphi(z') |\right)^2 & \le \sum_{z' \in C} \varrho(z') | \varphi(z)^\top G_\varrho^{-1} \varphi(z') |^2 \\ &= \sum_{z' \in C} \varrho(z') \varphi(z)^\top G_\varrho^{-1} \varphi(z') \varphi(z')^\top G_\varrho^{-1} \varphi(z) \\ &= \varphi(z)^\top G_\varrho^{-1} \left( \sum_{z' \in C} \varrho(z') \varphi(z') \varphi(z')^\top \right) G_\varrho^{-1} \varphi(z) \\ &= \varphi(z)^\top G_\varrho^{-1} \varphi(z) = \|\varphi(z)\|_{G_\varrho^{-1}}^2 \end{align*}.\]

これを先程の不等式と組み合わせることで、望みの結果が得られる。$\qquad \blacksquare$

$g(\varrho)=\max_z \|\varphi(z)\|_{G_\varrho^{-1}}$ を制御下に置けるかどうかを確認する作業が残っている. これにはKieferとWolfowitzによる古典的な結果を用いることができる:

定理 (Kiefer-Wolfowitz): $\mathcal{Z}$は有限集合であるとする. $\varphi: \mathcal{Z} \to \mathbb{R}^d$は特徴行列 $\Phi$ のランクが $d$ であるような特徴マップであるとする. このとき、以下のような条件を満たす集合 $\mathcal{C} \subseteq \mathcal{Z}$ とこの集合上の確率分布 $\varrho: C \rightarrow [0, 1]$、つまり$\sum_{z' \in \mathcal{C}} \varrho(z') = 1$であるようなものが存在する。

$\vert \mathcal{C} \vert \leq d(d+1)/2$;
$\sup_{z \in \mathcal{Z}} \|\varphi(z)\|_{G_\varrho^{-1}} \leq \sqrt{d}$;
前の行において、等式が成り立つ場合があり、$\sqrt{d}$ は$\mathcal{C}$ と$\rho$の全ての可能な選択の中で最良の値である。

ここでは証明を行わないが、読者が証明を確認できるように末尾に参考文献を挙げる。 $\varphi$ がフルランクでない時 (すなわち, $\Phi$ のランクが $d$ でない時)、次元を減らすことができる (これに従い、$C$ の基数も減少する)。 $g(\rho)$が最小になるように$\mathcal{C}$ と$\rho$ を選ぶ問題は、統計学の分野では$G$-最適計画問題と呼ばれる。これは、最適実験計画問題の特殊形である。

Kiefer-Wolfowitzの定理を先述の補題と組み合わせることで、最小二乗法が高々$\sqrt{d}$のスケールで”測定誤差”を増大させることがわかる:

系 (最適設計による最小二乗法の外挿誤差の制御): 任意のフルランクの$\varphi:\mathcal{Z} \to \mathbb{R}^d$を考える。このとき, 要素数が高々$d(d+1)/2$の集合$\mathcal{C} \subset \mathcal{Z}$と重み関数$\varrho\in \Delta_1(\mathcal{C})$があって、任意の $\theta \in \mathbb{R}^d$ と $\varepsilon: \mathcal{C} \rightarrow \mathbb{R}$ について以下を満たす:

\[\max_{z\in \mathcal{Z}}\left| \varphi(z)^\top \hat{\theta} - \varphi(z)^\top \theta \right| \leq \sqrt{d}\, \max_{z' \in C} \left| \varepsilon(z') \right|\,.\]

ただし、 $\hat\theta$ は以下で与えられる:

\[\begin{align*} \hat{\theta} = G_\varrho^{-1} \sum_{z' \in C} \varrho(z') \Big(\varphi(z')^\top \theta + \varepsilon(z') \Big) \varphi(z')\,. \end{align*}\]

重要なこととして、$\mathcal{C}$ と $\varrho$ は $\theta$ と $\epsilon$ とは独立に選ばれることに注意してほしい。すなわち、これらは目標と独立である。このことから、近似方策評価ではKiefer-Wolfowitzの定理にあるように$(\mathcal{C},\rho)$を選び、$\rho$を重み付きモーメント行列として用いなければならない。これにより、以下が導かれる: $\begin{align} \hat{\theta} = G_\varrho^{-1} \sum_{z' \in C} \varrho(z') \hat R_m(z') \varphi(z')\,. \label{eq:lspeg} \end{align}$ ただし、 $\hat R_m(z)$ の定義は式 $\eqref{eq:petargetsbiased}$ の通りであり、また $G_\varrho$ の定義は式 $\eqref{eq:mommx}$ の通りである. 以下、この手続きを$G$-最適計画点上のロールアウトに基づく最小二乗方策評価、縮めてLSPE-$G$と呼ぶ。ここで、打ち切りありのロールアウトに拘ることで、確率解析がシンプルになることに注意して欲しい。これにより外挿誤差を適切に制御できることが、次の定理によって示される:

補題 (LSPE-$G$における外挿誤差の制御): 任意のフルランクな特徴マップ $\varphi:\mathcal{Z} \to \mathbb{R}^d$ を固定し、集合 $\mathcal{C} \subset \mathcal{Z}$ と重み関数 $\varrho\in \Delta_1(\mathcal{C})$ を Kiefer-Wolfowitzの定理に従って選ぶ. 方策 $\pi$ を固定し、 $q^\pi = \Phi \theta + \varepsilon_\pi$ を満たすような $\theta$ と $\varepsilon_\pi$ を考え、即時報酬は区間 $[0,1]$ の間に収まると仮定する. $\hat{\theta}$ は式 \eqref{eq:lspeg} のように計算する.
このとき、任意の $0\le \delta \le 1$について、確率$1-\delta$で以下が成り立つ:

\[\begin{align} \left\| q^\pi - \Phi \hat{\theta} \right\|_\infty &\leq \|\varepsilon_\pi\|_\infty (1 + \sqrt{d}) + \sqrt{d} \left(\frac{\gamma^H}{1 - \gamma} + \frac{1}{1 - \gamma} \sqrt{\frac{\log(2 \vert C \vert / \delta)}{2m}}\right). \label{eq:lspeee} \end{align}\]

注目すべきこととして、Kiefer-Wolfowitzの定理より $\vert C \vert = O(d^2)$ であるから、上の式は全く状態空間の大きさに依存していない。今、上の誤差の上界をある値$\varepsilon>0$について高々$\|\varepsilon_\pi\|_\infty (1 + \sqrt{d}) + 2\varepsilon$に収めたいとする。上記より、$H$ と $m$ を以下のように選べば十分であることがわかる:

\[\begin{align*} \frac{\gamma^H}{1 - \gamma} \leq \varepsilon/\sqrt{d} \qquad \text{and} \qquad \frac{1}{1 - \gamma} \sqrt{\frac{\log(2 \vert C \vert / \delta)}{2m}} \leq \varepsilon/\sqrt{d}. \end{align*}\]

これと$\vert\mathcal{C}\vert\le d(d+1)/2$を組み合わせることで、以下が導かれる:

\[\begin{align*} H \geq H_{\gamma, \varepsilon/\sqrt{d}} \qquad \text{and} \qquad m \geq \frac{d}{(1 - \gamma)^2 \varepsilon^2} \, \log \frac{d(d+1)}{\delta}\,. \end{align*}\]

Proof: 要約すれば、先述の系をHoeffdingの不等式とともに用い、式 $|q^\pi-T_\pi^H \boldsymbol{0}|_\infty \le \gamma^H/(1-\gamma)$ を用いれば, 報酬が $[0,1]$ の区間に収まることから証明が導かれる.

完全な証明はこちら.

$z\in \mathcal{C}$を固定する. $\hat{R}_m(z) = q^\pi(z) + \hat{R}_m(z) - q^\pi(z) = \varphi(z)^\top \theta + \varepsilon(z)$ と書く。ただし $\varepsilon(z) = \hat{R}_m(z) - q^\pi(z) + \varepsilon_\pi(z)$ とする. このとき $$ \hat{\theta} = G_\varrho^{-1} \sum_{z' \in C} \varrho(z') \Big( \varphi(z')^\top \theta + \varepsilon(z') \Big) \varphi(z'). $$ ここで、私たちの推定した行動価値関数と真の行動価値関数の差の上界を求める: $$ \begin{align} \| q^\pi - \Phi \hat\theta \|_\infty & \le \| \Phi \theta - \Phi \hat\theta\|_\infty + \| \varepsilon_\pi \|_\infty \le \sqrt{d}\, \max_{z\in \mathcal{C}} |\varepsilon(z)|\, + \| \varepsilon_\pi \|_\infty \label{eq:bound_q_values} \end{align} $$ 最後の行は上の系より従う。上の第一項の上界を抑えるために、まず $\mathbb{E} \left[ \hat{R}_m(z) \right] = (T_\pi^H \mathbf{0})(z)$ であることに注意する. ここで, $$ \begin{align*} \varepsilon(z) &= \hat{R}_m(z) - q^\pi(z) + \varepsilon_\pi(z) \nonumber \\ &= \underbrace{\hat{R}_m(z) - (T_\pi^H \mathbf{0})(z)}_{\text{sampling error}} + \underbrace{(T_\pi^H \mathbf{0})(z) - q^\pi(z)}_{\text{truncation error}} + \underbrace{\varepsilon_\pi(z)}_{\text{fn. approx. error}}. \end{align*} $$ 報酬は単位区間の中に収まると仮定したので、打ち切り誤差は高々$\frac{\gamma^H}{1 - \gamma}$ となる. サンプリング誤差 (第一項) については、Hoeffdingの不等式より、任意の$z\in \mathcal{C}$について, 少なくとも$1 - \delta$の確率で $ \left \vert \hat{R}_m(z) - (T_\pi^H \mathbf{0})(z) \right \vert \leq \frac{1}{1 - \gamma} \sqrt{\frac{\log(2 / \delta)}{2m}}$ が成り立つ. ユニオンバウンドを適用することで、少なくとも確率 $1 - \delta$ で、全ての$z \in \mathcal{C}$ に対して、 $ \left \vert \hat{R}_m(z) - (T_\pi^H \mathbf{0})(z) \right \vert \leq \frac{1}{1 - \gamma} \sqrt{\frac{\log(2 \vert C \vert / \delta)}{2m}}$. これらを組み合わせて、少なくとも確率 $1 - \delta$ で以下が成り立つ, $$ \begin{equation} \max_{z \in \mathcal{C}} | \varepsilon(z) | \leq \frac{\gamma^H}{1 - \gamma} + \frac{1}{1 - \gamma} \sqrt{\frac{\log(2 \vert C \vert / \delta)}{2m}} + \|\varepsilon_\pi\|_\infty\,. \label{eq:bound_varepsilon_z} \end{equation} $$ これを式 \eqref{eq:bound_q_values} と組み合わせて簡単な代数計算を実行することで、望みの結果が得られる。

$\blacksquare$

以上のことから、特徴量を用いて方策の行動価値関数をよく近似できるならば、方策の行動価値関数の信頼できる推定値を得るためのシンプルな手続き (最適実験計画に基づくモンテカルロロールアウトと最小二乗法による推定) が存在することがわかった。残る問題は、これらの推定値を方策反復法の中で用いた時、十分に多くの反復ののち、全体として良い方策が得られるかどうかである。

近似誤差つきの方策改善定理

ここで、先の方策反復法の指数的方策改善補題について、「近似的」な方策改善ステップを許容するような改良版を考えよう。この補題の主張は、改善された方策$\pi’$の価値関数は、改善される前の方策$\pi$にベルマン作用素を適用した$$と少なくとも同じくらい大きい、というものだった。新しい補題は、以下のようになる。

補題 (近似方策改善についての指数的改善定理): メモリーレス方策$\pi$ とそれに付随する価値関数$v^\pi$を考える。 $\pi'$を任意の方策とし、$\varepsilon:\mathcal{S} \to \mathbb{R}$を以下で定義する。

\[T v^\pi = T_{\pi'} v^{\pi} + \varepsilon\,.\]

このとき、

\[\|v^* - v^{\pi'}\|_\infty \leq \gamma \|v^* - v^{\pi}\|_\infty + \frac{1}{1 - \gamma} \, \|\varepsilon\|_\infty.\]

証明: まず最適方策$\pi^*$について$T_{\pi^*} v^* = v^*$ である。このとき、以下が成り立つ。

\[\begin{align} v^* - v^{\pi'} & = T_{\pi^*}v^* - T_{\pi^*} v^{\pi} + \overbrace{T_{\pi^*} v^\pi}^{\le T v^\pi} - T_{\pi'} v^\pi + T_{\pi'} v^{\pi} - T_{\pi'} v^{\pi'} \nonumber \\ &\le \gamma P_{\pi^*} (v^*-v^\pi) + \varepsilon + \gamma P_{\pi'} (v^\pi-v^{\pi'}) \label{eq:vstar_vpiprime} \end{align}\]

価値差分方程式と$v_\pi =T_\pi v^\pi\le T v^\pi$を使い、以下を計算する。

\[\begin{align} v^\pi - v^{\pi'} = (I-\gamma P_{\pi'})^{-1} [ v^\pi - T_{\pi'}v^\pi] \le (I-\gamma P_{\pi'})^{-1} [ T v^\pi - (T v^\pi -\varepsilon) ] = (I-\gamma P_{\pi'})^{-1} \varepsilon \label{eq:valuediff-eps} \end{align}\]

この不等式が成り立つのは、$(I-\gamma P_{\pi’})^{-1}= \sum_{k\ge 0} (\gamma P_{\pi’})^k$が非負の線形作用素の和であるため、これ自体もまた非負の線形作用素であり、それゆえ単調だからだ。得られた不等式を\eqref{eq:vstar_vpiprime}にいれて、以下を得る。

\[\begin{align*} v^* - v^{\pi'} \le \gamma P_{\pi^*} (v^*-v^\pi) + (I-\gamma P_{\pi'})^{-1} \varepsilon. \end{align*}\]

両辺で最大値ノルムをとり、三角不等式と$\| (I-\gamma P_{\pi'})^{-1} \|_\infty \le 1/(1-\gamma)$を使うことで、所望の結果を得る。¹ $\qquad \blacksquare$

近似方策反復法

改善定理が、誤差の起源について何の仮定もおいていないことに注意しよう。すると、この改善定理をくりかえし適用した、より一般的なバージョンの近似方策反復法を考えたくなる。$k$番目のアップデート集合の中の$k\ge 1$について、新しい方策$\pi_k$が$v^{\pi_k}$について、以下に示すような意味で近似的に貪欲になるようなものだ。

\[\begin{align} T v^{\pi_k} = T_{\pi_{k+1}} v^{\pi_k} + \varepsilon_k\,. \label{eq:apidef} \end{align}\]

改善定理は、結果として得られる方策列が、$v^*$の近傍に収束するような価値関数を持つこと、その近傍のサイズが誤差列$(\varepsilon_k)_k$のマグニチュードでおさえられることを示唆している。

定理 (近似方策反復法): 全ての$k\ge 0$について、$(\pi_k)_{k\ge 0}$と$(\varepsilon_k)_k$ が式 \eqref{eq:apidef}を満たすとする。このとき、任意の$k\ge 1$について、以下が成り立つ。

\[\begin{align} \|v^* - v^{\pi_k}\|_\infty \leq \frac{\gamma^k}{1-\gamma} + \frac{1}{(1-\gamma)^2} \max_{0\le s \le k-1} \|\varepsilon_{s}\|_\infty\,. \label{eq:apieb} \end{align}\]

証明: 演習問題としてとっておく²。 $\qquad \blacksquare$

いま、方策系列$(\pi_k)_{k\ge 0}$が以下で定義されるような、近似方策反復法の一バージョンを考えよう。

\[\begin{align} q_k = q^{\pi_k} + \varepsilon_k', \qquad M_{\pi_k} q_k = M q_k\,, \quad k=0,1,\dots\,. \label{eq:apiavf} \end{align}\]

つまり各$k=0,1,\dots$について、$\pi_k$が$q_k$について貪欲ということだ。

系 (近似行動価値関数を用いた近似方策反復法): 式\eqref{eq:apiavf}で定義された方策系列について、以下が成り立つ。

\[\| v^* - v^{\pi_k} \|_\infty \leq \frac{\gamma^k}{1-\gamma} + \frac{2}{(1-\gamma)^2} \max_{0\le s \le k-1} \|\varepsilon_{s}'\|_\infty\,.\]

証明: 記法を単純にするため、方策$\pi,\pi'$と関数$q,\varepsilon'$を、$M_{\pi'} q = M q$ および $q=q^\pi+\varepsilon'$ が成り立つような状態行動価値関数の上で定義する。このとき、以下が成り立つ。

\[\begin{align*} T v^\pi & \ge T_{\pi'} v^\pi = M_{\pi'} (r+\gamma P v^\pi) = M_{\pi'} q^\pi = M_{\pi'} q - M_{\pi} \varepsilon' = M q - M_\pi \varepsilon'\\ & \ge M (q^\pi - \|\varepsilon'\|_\infty \boldsymbol{1}) - M_\pi \varepsilon' \ge M q^\pi - 2 \|\varepsilon'\|_\infty \boldsymbol{1} = T v^\pi - 2 \|\varepsilon'\|_\infty \boldsymbol{1} \end{align*}\]

ここで、$M_\pi$の線形性および単調性、$M$の単調性、また$M_\pi$と$M$の両方が最大ノルムのもとで発散しないことを利用した。

それゆえ、$\varepsilon_k$が式 \eqref{eq:apidef}で定義されるなら、$\|\varepsilon_k\|_\infty \le 2 \|\varepsilon_k'\|_\infty$およびこの結果が、以前の定理から従う。 $\qquad \blacksquare$

最小二乗方策反復法によるグローバルプランニング

さて、これまでの内容を全部まとめると、以下のようなプランニング手法が得られる。

与えられた特徴量マップ$\varphi$について、Kiefer-Wolfowitz定理の条件を満たすような$\mathcal{C}$と$\rho$を見つける。
$\theta_{-1}=0$とする。
$k=0,1,2,\dots,K-1$について、以下の4,5を行う。
$\qquad$ 方策$\pi:=\pi_k$を$H$ステップロールアウトし、ターゲット $\hat R_m(z)$を得る。
$\qquad$ ただし、$z\in \mathcal{C}$、$\pi_k(s) = \arg\max_a \langle \theta_{k-1}, \varphi(s,a) \rangle$ である。
$\qquad$ 式$\eqref{eq:wlse}$ で与えられる重みつき最小二乗問題を解き、$\theta_k$を得る。
$\theta_{K-1}$を返す。

我々は、この手法を最小二乗方策反復法 (least-squares policy iteration, LSPI) というそのままの名前で呼ぶ。これが、グローバルプランニングの手法であることに注意しよう。この手法は、入力状態をいっさい用いない。また、この手法が返すパラメータベクトル $\theta_{K-1}$ は、手法の中で $\pi_k$ を求めたのと同様に、方策 $\pi_{K}$ を得るのに使うことができる。

定理 (LSPIの性能): 任意のフルランクの特徴量マップ $\varphi: \mathcal{S}\times \mathcal{A} \to \mathbb{R}^d$を一つ固定し、 $K,m,H\ge 1$とする。 B2$_{\varepsilon}$が成り立つことを仮定する。

このとき、$\Phi \theta_{K-1}$について貪欲な方策$\pi_{K}$は、任意の$0\le \zeta \le 1$について、少なくとも$1-\zeta$の確率で $\delta$-準最適になる。$\delta$について以下が成り立つ。

\[\begin{align*} \delta \le \underbrace{\frac{2(1 + \sqrt{d})}{(1-\gamma)^2}\, \varepsilon}_{\text{近似誤差}} + \underbrace{\frac{\gamma^{K-1}}{1-\gamma}}_{\text{イテレーション誤差}} + \underbrace{\frac{2\sqrt{d}}{(1-\gamma)^3} \left(\gamma^H + \sqrt{\frac{\log( d(d+1)K / \zeta)}{2m}}\right)}_{\text{方策評価誤差}} \,. \end{align*}\]

特に、任意の$\varepsilon’>0$について、$K,H,m$を以下を満たすように選ぶことができる。

\[\begin{align*} K & \ge H_{\gamma,\gamma\varepsilon'/2} \\ H & \ge H_{\gamma,(1-\gamma)^2\varepsilon'/(8\sqrt{d})} \qquad \text{and} \\ m & \ge \frac{32 d}{(1-\gamma)^6 (\varepsilon')^2} \log( (d+1)^2 K /\zeta ) \end{align*}\]

すると、方策$\pi_K$は、以下の$\delta$について$\delta$-最適となる。

\[\begin{align*} \delta \le \frac{2(1 + \sqrt{d})}{(1-\gamma)^2}\, \varepsilon + \varepsilon'\,, \end{align*}\]

このとき、総計算コストは$\text{poly}(\frac{1}{1-\gamma},d,\mathrm{A},\frac{1}{(\varepsilon’)^2},\log(1/\zeta))$だ。

よって、多項式計算コストとなるようなLSPIの特定の設定は、与えられた特徴量を使って行動価値関数を近似する誤差$\varepsilon$が十分小さいなら、重要なことに状態空間のサイズと独立なコストで、いい方策になりうることがわかる。

証明: B2$_{\varepsilon}$と、$\Phi$がフルランクであるということから、任意のメモリーレス方策$\pi$について $\| \Phi \theta - q^\pi \|_\infty \le \varepsilon$であるようなパラメータベクトル$\theta\in \mathbb{R}^d$ が存在するということが言える (cf. 宿題2問3のパート2)。よって、ここで「LSPE外挿誤差バウンド」 (cf. $\eqref{eq:lspeee}$)を使うことができる。この結果から、ユニオンバウンドと、もちろんB2$_\varepsilon$により、任意の $0\le \zeta \le 1$について少なくとも確率$1-\zeta$で、任意の $0 \le k \le K-1$について、以下が成り立つ。

\[\begin{align*} \| q^{\pi_k} - \Phi \theta_k \|_\infty &\leq \varepsilon (1 + \sqrt{d}) + \sqrt{d} \left(\frac{\gamma^H}{1 - \gamma} + \frac{1}{1 - \gamma} \sqrt{\frac{\log( d(d+1)K / \zeta)}{2m}}\right)\,, \end{align*}\]

ここでは$\vert \mathcal{C} \vert \le d(d+1)$も使用した。この不等式の右辺を$\kappa$と呼ぼう。

とりあえず、この不等式が成立するような場合を仮定しよう。先の定理より、$\pi_K$は以下の$\delta$のもとで$\delta$-最適になる。

\[\delta \le \frac{\gamma^{K-1}}{1-\gamma} + \frac{2}{(1-\gamma)^2} \kappa \,.\]

二番目の$\varepsilon’$についての結果を得るには、$\varepsilon’$を二つのパートに分割する。 $K$は、イテレーション誤差をたかだか $\varepsilon’/2$におさえるように、$H$と$m$は方策評価誤差をたかだか$\varepsilon’/2$におさえるように設定されている。$H$と$M$を選ぶために、$\varepsilon’/2$をまた二つに分割する。その詳細な計算は読者に委ねよう。 $\qquad \blacksquare$

ノート

近似動的計画法 (Approximate Dynamic Programming, ADP)

価値反復法と方策反復法はともに動的計画法の具体的な例だ。一般に、動的計画法は、良い方策を求めるのに価値関数を用いる手法のことを指す。近似動的計画法 (ADP) では、値を計算する際に「誤差」を導入して手法を修正する。ここでのアイデアは、誤差の原因は重要ではないということだ（例えば、不完全な線形・非線形関数近似、サンプリングに起因するものなど）。そのため、この解析は一般的な形式で行われる。ここでは近似方策反復を扱ったが、ここで示したのと同じ考え方で近似版の価値反復を扱うこともできる。この方法は、問題集2の宿題で求めることになるが、ふつう近似価値反復法と呼ばれる。以前の宿題では、線形計画法がどのようにして最適な価値関数を計算するのに使われるかを勉強するよう求めた。これに近似を加えると、近似線形計画法になる。

どの関数近似を使うべきか？

ニューラルネットワークファンのために一応書いておくが、この講義の中盤に出てくる定理のような一般的なADPスタイルの結果が、ニューラルネットワークを関数の近似手法として使った場合にも適用できる。しかし、この講義の主な教訓は、外挿誤差を抑制するためには、学習データの選び方にかなり注意しなければならないというだ。線形予測や最小二乗フィッティングの場合は最適設計によって完全な答えが得られるが、ニューラルネットワークのような非線形関数近似について同様のことができるかという問題は、完全にオープンクエスチョンだ。また、ノンパラメトリック手法(ニューラルネットワークの親戚だが、解析はしやすい)をADP法に結びつけた文献も一定数ある。

集中係数とオール・ザット・ジャズ

近似計算を導入するというアイデアは、1960年代に人々がマルコフ決定過程に興味を持ったのと同じ時期に導入された。そのため、文献は非常に膨大だ。しかしこの講義で採用した、MDPに関わらず、近似誤差以外のアルゴリズムの誤差が一様に制御されるようなバウンドを求めるアプローチはごく最近のものだ。このアプローチでは、近似誤差を含む項も一様にバウンドされる(次元と割引報酬率が固定の場合)。

初期の研究では、しばしば近似の係数とアルゴリズムの誤差が、MDPに依存する項を含むようなバウンドを提案していた。多くの場合、これらは「集中係数」という形で提示されている（しばらく前には、私もこれらの結果を出すためにかなり忙しかった)。この初期の分析の主な結論は、遷移に確率的な要素が増えると制御がきかなくなって集中性が低下するので、ADPアルゴリズムに有利になるというものだ。これは理にかなっておりし、これらの初期の結果は今回の結果を補完するものだが、問題は、MDPが決定的な場合などに、これらの結果が悲観的になりすぎることだ（この場合、集中係数は状態空間の大きさと同じくらい大きくなってしまう）。

この講義では外挿誤差を抑制するために優れた設計を用いることの重要性を強調したが、これらの初期の結果では、最適な実験計画は用いられていない。これにより、良い実験計画を考える手間は省けるが、外挿誤差が制御できなくなる可能性があるのは明らかなデメリットだ。後に登場するバッチ学習の設定ではもちろんサンプル収集を制御する方法はないが、これは実際のところ、これら初期の研究が行われた設定だ。

ヒントの強力さ

APIの解析における致命的に重要な仮定は、近似誤差がすべての方策のもとで一律に制御されるということだ。これには限界を感じる。しかし、この仮定が明らかに満たされるような、いくつかの興味深い十分条件がある。一般的には、遷移ダイナミクスと報酬の両方が「圧縮可能」であることが求められる。例えば、MDPの状態行動対について即時報酬を返す関数$r$が$r = \Phi \theta_r$で、遷移関数$P\in [0,1]^{\mathrm{S}\mathrm{A} \times \mathrm{S}}$が適当な行列$H\in \mathbb{R}^{d\times \mathrm{S}}$を用いて$P = \Phi H$と書けるような場合を考えよう。このとき、任意の方策 $\pi$について、$T_\pi q = r+ \gamma P M_\pi q$ の範囲は $\text{span}(\Phi)=\mathcal{F}_{\varphi}$のサブセットになる。 $q^\pi$ は $T_\pi$の固定点、すなわち $q^\pi = T_\pi q^\pi$なので、 $q^\pi$ もまた必ず $T_\pi$の範囲内だ。よって、$q^\pi \in \mathcal{F}_{\varphi}$ と $\varepsilon_{\text{apx}}=0$ が従う。この二つの制約を満たすようなMDPは$\Phi$の中で線形と呼ばれる (または時々、ただ「線形MDP」と呼ばれる)。厳密な線形性は、以下のように緩和できる。 $r = \Phi \theta_r + \varepsilon_r$ および $P = \Phi H +E$が成り立つとすると、任意の方策 $\pi$について $q^\pi\in_{\varepsilon} \mathcal{F}_{\varphi}$ であり、$\varepsilon$は $\varepsilon \le \|\varepsilon_r\|_\infty+\frac{\gamma}{1-\gamma}\|E\|_\infty$によってバウンドされる。後に、実際にこの仮定が緩和できるのか調べることになる。

バウンドのタイトさ

最後の結果で示されたバウンドがタイトなのかどうかは、未解決問題だ。実際、$m$の$1/(1-\gamma)$への依存性は、ほぼ確実にタイトではない。似たシナリオで、Hoeffdingの不等式をBernsteinの不等式で置き換えることで、この項を小さくできることが過去に示されている。それよりも興味深いのは、近似誤差の増幅率である$\sqrt{d}/(1-\gamma)^2$が最良であるかどうかだ。次の講義では、実行時間を制御しつつ近似誤差増幅率$\sqrt{d}$を取り除けないことを示す。また後の講義では、少なくともこのアルゴリズムでは、$1/(1-\gamma)$への依存性も改善できないことを示す。しかし、主な関心が近似誤差の増幅にある場合、B2$_{\varepsilon}$のもとで多項式実行時間で(たぶんもっと高次のオーダーになるが)を維持できる、より良いアルゴリズムが存在する。

最適実験計画のコスト

注意深い読者なら見逃さないだろうが、この講義で提案した手法を実行するためには、集合$\mathcal{C}$と重み付け関数$\rho$を見つける必要がある。ここでの最初の観察は、可能な限り最高の $(\mathcal{C}, \rho)$ペアを見つけることは重要ではないということだ。 Kiefer-Wolfowitzの定理によれば、最適な選択のもとで、$g(\rho) = \sqrt{d}$となる。しかし、$g(\rho)=2\sqrt{d}$となるようなペアを見つけた場合、その代償として、最終的な性能バウンドに$\sqrt{d}$が出てくるところにで、$2$の乗法下因子も導入する必要がある。これは許容できるはずだ。関連して、最適性の要求を緩和することで、 $\mathcal{C}$ の濃度を減らすことができる。例えば、上述のように $2$ の係数を導入することで、濃度を $O(d\log\log d)$ に減らすことができる。すると実行時間が大幅に短縮されるので、実際には良いトレードオフかもしれない。

しかし、依然として疑問なのは、誰がこれらの(近似的に)最適な設計を、どのようなコストで計算するのかということだ。この計算は一度だけ行えばよく、MDPには依存しないが（特徴量マップに依存するだけ）、この計算コストがあるためこれらの手法の価値は結局よくわからない。ここで必要となる近似最適設計を計算する一般的な手法は知られているが、我々のケースではその実行時間は状態行動対の数に比例してしまう。非常にまれなケースだが、遷移のシミュレーションに非常にコストがかかるが、状態動作対の数がそれほど多くない場合は、この方法が有効な選択肢となるかもしれない。しかしこのようなケースはまれだ。特殊な特徴量マップを選んだ場合については、最適な設計が知られているかもしれない。しかし、そうするとここで紹介した方法の一般的は低下してしまうだろう。そのため大きな問題となるのは、最適な実験計画を計算する必要性を回避できるのかどうかだ。最小二乗法による線形予測の場合、これは明らかに避けることはできないことが知られている。これは、より一般的にも当てはまりそうだ。

最適な実験計画を諦めても、根本的な結果は変わらないのだろうか？特に興味深いのは、プランナがシミュレータと相互作用する際、特徴マップが「局所的に探索される」だけなのかどうかだ。結局、最適な実験計画を実現するためには、2つの要因があると考えられる。。 1つは、プランナがグローバルであることだ。その場合プランナは、状態に関わず使用可能な方策を導くようなパラメーターベクトルを返さなければならない。もう1つの要因は（おそらく）、手法が関数近似器による動的計画法の単純な「つぎはぎ」になっていることだ。これは一般的なアプローチではあるが、この場合外挿誤差を制御することが非常に重要なので、最適な実験計画に近いものがなければ難しいだろう。近いうちに見ることになるが、ローカルプランニングに基づく手法には最適な実験計画のステップを避られものもあり、それらは近似動的計画法のアプローチからも外れている。

方策評価のオルタナティブ

ここで紹介した方策評価の手法は、あまり洗練されていないように思える。単純な$N$ステップモンテカルロロールアウトをして、平均をとって、最小二乗回帰をする。強化学習の文脈では、「即時差分(TD)」学習など、不動点方程式$q^\pi = T_\pi q^\pi$にもとづく様々な手法が提案されてきた。もちろん、この方程式を使って、ここで紹介した粗雑クルードなモンテカルロ近似を避け、分散(現在はHoeffding boundの$1/(1-\gamma)$項を使って、かなり粗い上限値が設定されている)を減らすことに挑戦できる。不動点を$(I-\gamma P_\pi) q^\pi = r$と書き直し、$q^\phi = \Phi \theta + \varepsilon$をいれると、外挿誤差を制御するのにあたって、最適計画は評価される方策に依存しそうだということがわかる ($(I-\gamma P_\pi)\Phi$が出てくるので)。

もう一つの誤差制御: ベルマン残差

$(\pi_k)_{k\ge 0}$ と $(q_k,\varepsilon_k)_{k\ge 0}$を、以下を満たすように構成する。

\[\varepsilon_k = q_k - T_{\pi_k} q_k\]

ここで、$\varepsilon_k$は $q_k$ の「ベルマン残差」と呼ばれる。この方策評価のオルタナティブは、この残差を制御することを目標にする。読者は、式\eqref{eq:apieb}で導出した「近似方策反復法」の誤差バウンドに対応するものを、このシナリオでも求めるという宿題に招待されている。

Kiefer-Wolfowitz の結果における $\rho$ の役割

ここで紹介した結果において、$\rho$の存在がどれほど重要なのか疑問に思う人もいるかもしれない。これについては、「重要ではない」と言える。重み付けされていない最小二乗法もそれほど悪いパフォーマンスにはならない。

最小二乗誤差バウンド

最小二乗法の誤差バウンドは、ランダム性の力を十分に利用していない。誤差の一部がランダムな場合、平均化効果が現れることがある。

最適実験計画 – それ自体が分野

最適実験計画は、統計学の一分野だ。ここで考えた実験計画は一つの可能性にすぎない。この実験計画はG-最適設計 (Gはgeneralの頭文字)と呼ばれている。Kiefer-Wolfowitzの定理は、実際にはこれはD-最適設計と等しいと主張している。

収束性の欠如

ここで紹介した結果では、最適目標の最適目標の周りのボールへの収束を示した。これを大きな問題だと考える人もいる。収束する手法の方が魅力的に見えるだろうが、ボールの大きさをコントロールできれば、私はあまり気にしない。

近似価値反復法 (AVI)

この講義でやったことと同様に、価値反復法の近似版を導入することができる。これは宿題2の質問3のテーマだ。条件は異なるが、AVIの定性的な動作は近似方策反復法と似ている。

証明には次の二点を示す: 一つ目は、残差 $\varepsilon_k = q_k - T q_{k-1}$ がコントロール可能だということ、そして二つ目は、それがコントロール出来た時に、(例えば) $q_K$ に貪欲な方策が $\delta$-最適だということだ。ただし $\delta$ は $\varepsilon_{1:K}:=\max_{1\le k \le K} \| \varepsilon_k \|_\infty$ でコントロールされる定数とする。二つめの点に関し、次のバウンドが存在する:

\[\begin{align} \delta \le 2 H^2 (\gamma^K + \varepsilon_{1:K})\,. \label{eq:lsvibound} \end{align}\]

ただし $H=1/(1-\gamma)$ 。関数の系列 $(q_k)_k$ を最小二乗法を用いて再帰的に計算する方法は様々な名前で知られている。例えば least-squares value iteration (LSVI), fitted Q-iteration (FQI), least-squares Q iteration (LSQI) などだ。このように様々な名前があるのは残念だが、今となってはどうしようもない。さらに残念なことに、上記の関数系列にニューラルネットワークを用い、”リプレイバッファー”からサンプルされたデータと確率的勾配降下法を使ってニューラルネットワークのウェイトを”学習”させる方法を”Deep Q-Networks” (training)、または省略して DQN と呼ぶ.

パラメータベクトルのバウンド

Kiefer-Wolfowitzの定理から次のことが導かれる:

命題: $\phi:\mathcal{Z}\to\mathbb{R}^d$ と $\theta\in \mathbb{R}^d$ が $\sup_{z\in \mathcal{Z}}|\langle \phi(z),\theta \rangle|\le 1$ and $\sup_{z\in \mathcal{Z}} \|\phi(z)\|_2 <+\infty$ 満たすとする。このとき、行列 $S\in \mathbb{R}^{d\times d}$ が存在して、

\[\begin{align*} \tilde\phi(z) & = S\phi(z)\,, \qquad z\in \mathcal{Z} \end{align*}\]

を満たすような $\tilde \phi$ に対し、次のことを満たす $\tilde \theta\in \mathbb{R}^d$ が存在する:

$\langle \phi(z),\theta \rangle = \langle \tilde \phi(z),\tilde \theta \rangle$, $z\in \mathcal{Z}$;
$\sup_{z\in \mathcal{Z}} \| \tilde \phi(z) \|_2 \le 1$;
$\|\tilde \theta \|_2 \le \sqrt{d}$.

証明: $\rho:\mathcal{Z} \to [0,1]$ を、Kiefer-Wolfowitzの定理で存在が保証される、$G$-最適計画だとする。 $M = \sum_{z\in \mathrm{supp}(\rho)} \rho(z) \phi(z)\phi(z)^\top$ をこのときのモーメント行列とする。すると $\rho$ の定義から、 $\sup_{z\in \mathcal{Z}}\|\phi(z)\|_{M^{-1}}^2 \le d$.

$S= (dM)^{-1/2}$ と $\tilde \theta = S^{-1} \theta$ を定義する。すると最初の性質は明らかに満たされている。二つめの性質に関しても

\[\|\tilde \phi(z)\|_2^2 = \| (dM)^{-1/2}\phi(z)\|_2^2 = \phi(z)^\top (dM)^{-1} \phi(z) \le 1\]

なので成立している。最後に三つめの性質は

\[\| \tilde \theta \|_2^2 = d \theta^\top \left( \sum_{z\in \mathrm{supp}(\rho)} \rho(z) \phi(z) \phi(z)^\top \right) \theta = d \sum_{z\in \mathrm{supp}(\rho)} \rho(z) \underbrace{(\theta^\top \phi(z))^2}_{\le 1} \le d\]

なのでこれも満たされている。これで証明が完了する。 $\qquad \blacksquare$

よって、特徴写像が完全に分かっており、それによって表される関数が有界なら、特徴写像が有界かつパラメータベクトルのノルムが $\sqrt{d}$ で抑えられると仮定して問題ない。

正則化最小二乗法

特徴写像 $\phi$ とデータ $(z_1,y_1),\dots,(z_n,y_n)$ によって定まる線形最小二乗予測は入力 $z$ に対する予測を $\langle \phi(z),\hat\theta \rangle$ として計算する。ここで、

\[\begin{align} \hat\theta = G^{-1}\sum_{i=1}^n \phi_i y_i\,, \label{eq:ridgesol} \end{align}\]

かつ

\[G = \sum_{i=1}^n \phi_i \phi_i^\top\,.\]

ただし、記法が複雑になるのを避けるため、 $i=1,\dots,n$ に対し $\phi_i=\phi(z_i)$ と定義した。ここで問題なのは $G$ が正則行列でないかもしれない点だ (つまり、 $\hat \theta$ が定義できないかもしれない)。 “連続性から”、 $G$ が不良設定な場合もかなり問題である (つまり、 $G$ の最小固有値が最大固有値より “圧倒的に小さい”)。実際、この場合にはかなり悪い”汎化”を示す。これを回避するためによく用いられるのが、 $G$ に単位行列に小さな定数をかけたものを足すことだ:

\[G = \lambda I + \sum_{i=1}^n \phi_i \phi_i^\top\,.\]

ここで $\lambda>0$ は調整可能なパラメータで、クロスバリデーションや類似の手法で決定されることが多い。この変更により $G$ は正則行列となり、特に $\lambda$ がデータに基づいて決定される場合、予測性能がかなり改善される。

上記のように、単位行列が研究においてはよく用いられるが、単位行列である必要はない。行列 $G$ の正則性は $I$ が任意の正定値行列 $P$ で置き換えられても成立する。実際、 $|\theta|_P^2$ が小さくなるような行列を用いる方がいい (ただし、例えば、 $P$ の最小固有値を固定しながら)。これが理に適っていることは、次の事実に基づいて正当化出来る:

\[G = \lambda P + \sum_{i=1}^n \phi_i \phi_i^\top\]

とすると、\eqref{eq:ridgesol} で定義される $\hat\theta$ は

\[L_n(\theta) = \sum_{i=1}^n ( \langle \phi_i,\theta \rangle - y_i)^2 \,\,+ \lambda \| \theta\|_P^2\,,\]

を最小化し、 $\theta$ のノルムを最小とする $P$ を選ぶことで、余分な罰則項の影響が最も小さく出来る。もしも $\sup_{z} |\langle \phi(z),\theta \rangle|\le 1$ ということだけが分かっているなら、以前のノートから、 $P=d M$ とするとよいことが分かる。ここで $M = \sum_{z\in \mathrm{supp}(\rho)} \rho(z) \phi(z)\phi(z)^\top$ かつ $\rho$ は $G$-最適計画である。実際、そうすることで、 $\|\theta\|_P^2 = d \|\theta \|_M^2 \le d$ となる。もしも特徴量の正規化を以前のノートで行うと

\[(dM)^{-1/2} (\sum_i \phi_i \phi_i^\top + \lambda d M ) (dM)^{-1/2} = \sum_i \tilde \phi_i \tilde \phi_i^\top + \lambda I\,,\]

となることに注意して欲しい。これは、以前のノートで示した命題のように特徴量が正規化されているときには、単位行列を選ぶとよいことを示している。

参考文献

とりあえず、さわりの部分だけ載せておく。後でもっとたくさんの文献を追加する。

この講義の根幹は以下の文献をベースにした。

Tor Lattimore, Csaba Szepesvári, and Gellért Weisz. 2020. “Learning with Good Feature Representations in Bandits and in RL with a Generative Model.” ICML and arXiv:1911.07676,

この文献は、$G$-最適実験計画を、外挿誤差を制御するのに用いる方法を提案した。「近似動的計画法」に関する最初期の文献が以下だ。

Whitt, Ward. 1979. “Approximations of Dynamic Programs, II.” Mathematics of Operations Research 4 (2): 179–85.

講義中で、近似方策反復法の一般的な形式についての解析は、以下のBertsekasとTsitsiklisの本の命題2のアレンジだ。

Dimitri P. Bertsekas and John N. Tsitsiklis. Neuro-Dynamic Programming. Athena Scientific, Belmont, Massachusetts, 1996.

しかし、ここで紹介した「API」の定理と命題6.2にはいくつかの違いがある。特に、命題6.2が価値関数の近似誤差と「貪欲化ステップ」で導入された誤差を対象としているのに対し、ここで紹介した定理はすべての誤差の原因を一般的な方法で捉えている。ここで採用した形式は、例えば、Scherrerのテクニカルレポートの定理1に現れており、彼は以前の文献も示している。

Scherrer, Bruno. 2013. “On the Performance Bounds of Some Policy Search Dynamic Programming Algorithms.” arxiv.

以前の文献の中で最も古いのは以下だ。

Munos, R. 2003. “Error Bounds for Approximate Policy Iteration.” ICML.

LSPIは、以下の文献に登場する。

Lagoudakis, M. G. and Parr, R. Least-squares policy iteration. The Journal of Machine Learning Re-search, 4:1107–1149, 2003.

もっとも、この文献の中に登場する特定の形式は、ベルマン残差最小化をベースにしているが (LSTD法と呼ばれる手法を使っている)。

ADPアプローチを提唱している二つの本を紹介する。

Powell, Warren B. 2011. Approximate Dynamic Programming. Solving the Curses of Dimensionality. Hoboken, NJ, USA: John Wiley & Sons, Inc.
Lewis, Frank L., and Derong Liu. 2013. Reinforcement Learning and Approximate Dynamic Programming for Feedback Control. Hoboken, NJ, USA: John Wiley & Sons, Inc.

また、この章もそうだ。

Bertsekas, Dimitri P. 2009. “Chapter 6: Approximate Dynamic Programming,” January, 1–118.

APIと最小二乗法、そして集中力を扱っているのは以下の文献だ。

Antos, Andras, Csaba Szepesvári, and Rémi Munos. 2007. “Learning near-Optimal Policies with Bellman-Residual Minimization Based Fitted Policy Iteration and a Single Sample Path.” Machine Learning 71 (1): 89–129.

最適実験計画は、広範な文脈を持っている。その計算を扱っているいい本がこれだ。

M. J. Todd. Minimum-volume ellipsoids: Theory and algorithms. SIAM, 2016.

Kiefer-Wolfowitzの定理は、以下の文献に由来する。

J. Kiefer and J. Wolfowitz. The equivalence of two extremum problems. Canadian Journal of Mathematics, 12(5):363–365, 1960.

計算についてもっと知りたいのであれば、以下を参照されたい。

E. Hazan, Z. Karnin, and R. Meka. Volumetric spanners: an efficient exploration basis for learning. Journal of Machine Learning Research, 17(119):1–34, 2016
M. Grötschel, L. Lovász, and A. Schrijver. Geometric algorithms and combinatorial optimization, volume 2. Springer Science & Business Media, 2012.

後者の本は、凸最適化についての、一般的でいいスタート地点だ。

翻訳者注

実際、以下のように変形すればよい。 $\begin{align*} \|v^* - v^{\pi'}\|_\infty &\le \|\gamma P_{\pi^*} (v^*-v^\pi) + (I-\gamma P_{\pi'})^{-1} \varepsilon \|_\infty ~~(両辺の最大値ノルム) \\ &\le \|\gamma P_{\pi^*} (v^*-v^\pi)\|_\infty + \|(I-\gamma P_{\pi'})^{-1} \varepsilon \|_\infty ~~(三角不等式) \\ &\le \gamma \| P_{\pi^*} (v^*-v^\pi)\|_\infty + 1/(1-\gamma) \| \varepsilon \| ~~(\| (I-\gamma P_{\pi'})^{-1} \|_\infty \le 1/(1-\gamma)) \\ &\le \gamma \| v^*-v^\pi\|_\infty + 1/(1-\gamma) \| \varepsilon \| ~~(0 \le P_{\pi^*}(s) \le 1) \\ \end{align*}$ ↩
帰納法で証明する。まず$k=1$の場合を示す。指数的改善定理から$\|v^* - v^{\pi_1}\| \le \gamma \|v^* - v^{\pi_0}\| + \frac{1}{1 - \gamma} \|\varepsilon_0\|_\infty$ である。この式に、報酬の最大値1より$\|v^* - v^{\pi_0}\| \le 1 + \gamma + \gamma^2 + ... \le \frac{1}{1 - \gamma}$を代入して、$\|v^* - v^{\pi_1}\| \le \frac{\gamma}{1 - \gamma} + \frac{1}{1 - \gamma} \|\varepsilon_0\|_\infty \le \frac{\gamma^1}{1 - \gamma} + \frac{1}{(1 - \gamma)^2} \|\varepsilon_0\|_\infty$を得る。次に、$k=i~~(i>1)$でこの定理が成り立つと仮定する。すなわち、$\|v^* -v^i\| \le \frac{\gamma^i}{1-\gamma} + \frac{1}{(1-\gamma)^2} \max_{0\le s \le i-1} \|\varepsilon_{s}\|_\infty$を仮定する。このとき、$k=i+1$でもこの定理が成り立つことを以下で示す。 \(\begin{align*} \|v^* - v^{i + 1}\| &\le \gamma \|v^* - v^{\pi_i}\|_\infty + \frac{1}{1 - \gamma} \|\varepsilon_i\|_\infty ~~(\text{指数的改善定理})\\ &\le \gamma \left(\frac{\gamma^i}{1-\gamma} + \frac{1}{(1-\gamma)^2} \max_{0\le s \le i-1} \|\varepsilon_{s}\|_\infty\right) + \frac{1}{1 - \gamma} \|\varepsilon_i\|_\infty ~~(\text{帰納法の仮定}) \\ &= \frac{\gamma^{i + 1}}{1-\gamma} + \frac{\gamma}{(1-\gamma)^2} \max_{0\le s \le i-1} \|\varepsilon_{s}\|_\infty + \frac{1}{1 - \gamma} \|\varepsilon_i\|_\infty \\ &= \frac{\gamma^{i + 1}}{1-\gamma} + \frac{1}{(1-\gamma)^2} \left( \gamma \max_{0\le s \le i-1} \|\varepsilon_{s}\|_\infty + (1 - \gamma) \|\varepsilon_i\|_\infty \right) \\ &\le \frac{\gamma^{i + 1}}{1-\gamma} + \frac{1}{(1-\gamma)^2} \left( \gamma \max_{0\le s \le i} \|\varepsilon_{s}\|_\infty + (1 - \gamma) \max_{0\le s \le i} \|\varepsilon_{s}\|_\infty \right) \\ &= \frac{\gamma^{i + 1}}{1-\gamma} + \frac{1}{(1-\gamma)^2} \max_{0\le s \le i} \|\varepsilon_{s}\|_\infty \end{align*} \qquad \blacksquare\) ↩