3. 価値反復法と最初の下界

前章では、動的計画法の基本定理を説明し、最適な価値関数をみつける為の効率的な「価値反復」アルゴリズムを導きだした。また、最適価値関数を「貪欲化」することで、最適方策を見つけることができた。この章では、以下の2点について議論する。

近似的に最適な方策を得るための手法としての価値反復法について、より詳細な特性
有限MDPにおけるプランニングの計算複雑性

価値反復法による近似的に最適な方策の導出

前章で、適当な$v_0\in \mathbb{R}^{\mathrm{S}}$から始めて計算を繰り返すことで$v_{k+1}$が得られる事が分かった。その際、以下の「ベルマンアップデート」を用いた。

\[\begin{align} v_{k+1} = T v_k \label{eq:vi} \end{align}\]

ベルマンアップデートによって得られた価値関数列$\{v_k\}_{k\ge 0}$ の$k$番目の項は、指数的に最適価値関数$v^*$に近づく。

\[\begin{align} \| v_k - v^* \|_\infty \le \gamma^k \| v_0 - v^* \|_\infty\,. \label{eq:vierror} \end{align}\]

これは非常に心強い事だが、我々の一番の目的は最適方策、もしくは最低でも近似的に最適な方策を得る事だ。前章の基本定理より、最適価値関数$v^*$について貪欲な方策は最適方策となる。よって、価値反復法を有限回で終了し、得られた価値関数を貪欲化した方策を返すことで近似最適価値関数$v^*$ を求めるのは、自然なアイデアだろう。

このプロセスを$k$回目で止めると、$v_k: T_{\pi_k} v_k = T v_k$について貪欲な方策として定義された方策$\pi_k$が手に入る。すると期待されるのは、$v_k$ が $v^*$に近づくにつれ、方策$\pi_k$も$\|v^*-v^{\pi_k}\|_\infty$が小さくなるという点で「良くなる」ということだ。

次の定理は、確かに$\pi_k$が良くなることを保証する。

定理 (方策の誤差バウンド): $v$が$\varepsilon$-最適価値関数: $\|v -v^*\|_\infty \le \varepsilon$であり、方策$\pi$が価値関数$v$に対して貪欲($T_\pi v = T v$)なら、以下が成立する。

\[v^\pi \geq v^* - \frac{2 \gamma \varepsilon}{1 - \gamma} \boldsymbol{1}.\]

つまり、この定理は、ある価値関数$v$に関して貪欲な方策の方策誤差($\|v^*-v^{\pi}\|_\infty$) が$v$から$v^*$までの距離によってコントロールされると言っている。

ここで$\Gamma$を、$\mathcal{S}$上の関数$v$に貪欲な方策を割り当てて方策に写像する作用素だと定義する。これを用いて定理を短くまとめると、任意の$v\in \mathbb{R}^{\mathcal{S}}$に対して以下が成立する。

\[\| v^*-v^{\Gamma(v)}\|_\infty \le \frac{2\gamma \|v^*-v\|_\infty}{1-\gamma}\,.\]

あるいは、この定理の主張を、写像$v \mapsto \|v^*-v^{\Gamma(v)}\|_\infty$は$v=v^*$における最大値ノルムについて”$2\gamma/(1-\gamma)$-smooth”だ、と捉えてもいいだろう。

この証明は縮約と単調性の主張を用いて誤差バウンドを証明する典型的な例だ。この証明のバリエーションを、何度も見ることになるだろう。証明の前に、ベクトル$\mathbb{R}^d$の絶対値を表す表記$|x|$を導入しておこう。これはベクトルの各成分の絶対値をとっている事を意味していて、 $|x|_i = |x_i|$, $i\in [d]$だ。

この表記の使い方の例を示そう。あるメモリーレス方策$\pi$について $\begin{align} |P_\pi x |\le P_\pi |x| \le \|x\|_\infty P_\pi \boldsymbol{1} = \|x\|_\infty \boldsymbol{1}\,, \label{eq:ppineb} \end{align}$ が成り立ち、以下が従う。 $\begin{align} \|P_\pi x \|_\infty \le \|x\|_\infty\,. \label{eq:stochmxne} \end{align}$

$\eqref{eq:ppineb}$式の最初の不等式は、$P_\pi$の単調性および$x\le |x| \le \|x\|_\infty \boldsymbol{1}$より成立する。また、証明のため、以下が成立することを思い出しておくのがいいだろう。

\[\begin{align} T_\pi (v+c \boldsymbol{1}) &= T_\pi v \,\, + c \gamma \boldsymbol{1}\,, \label{eq:tpiadd1} \\ T (v+c \boldsymbol{1}) &= T v \,\, + c \gamma \boldsymbol{1}\,, \label{eq:tadd1} \end{align}\]

これは任意の$v\in \mathbb{R}^{\mathrm{S}}$,$c\in \mathbb{R}$,メモリーレス方策$\pi$に対して成立する。この２つの式は$T$と$T_\pi$の定義のみから成立するので、読者は容易に確かめられるだろう。

証明: $\delta = v^*-v^\pi$と記述する。我々は$\|\delta\|_\infty \le \gamma \|\delta\|_\infty + 2\gamma \varepsilon$を証明する事さえできれば代数を用いる事でこの定理を得る事が可能になる。従ってこの不等式を証明する事にする。

仮定により、$v$と$v^*$は$-\varepsilon\boldsymbol{1}\le v^*-v \le \varepsilon\boldsymbol{1}$の範囲だ。

よって、

\[\begin{align*} \delta & = v^*-v^\pi \\ & = \textcolor{red}{T} v^* - \textcolor{red}{T_\pi} v^\pi & \text{(基本定理, $T_\pi v^\pi = v^\pi$)}\\ & \le T(v+\textcolor{red}{\varepsilon\boldsymbol{1}})-T_\pi v^\pi & \text{($T$ 単調性)}\\ & = Tv-T_\pi v^\pi +\textcolor{red}{\gamma\varepsilon\boldsymbol{1}} & \text{(\eqref{eq:tadd1}式)}\\ & = \textcolor{red}{T_\pi} v-T_\pi v^\pi +\gamma\varepsilon\boldsymbol{1} & \text{($\pi$ の定義)}\\ & \le T_\pi(v^*+\textcolor{red}{\varepsilon\boldsymbol{1}})-T_\pi v^\pi + \gamma \varepsilon \boldsymbol{1} & \text{($T_\pi$ 単調性)}\\ & = T_\pi v^* - T_\pi v^\pi + \textcolor{red}{2}\gamma \varepsilon\boldsymbol{1} & \text{(\eqref{eq:tpiadd1}式)}\\ & = \textcolor{red}{\gamma P_\pi}(v^*-v^\pi)+2\gamma \varepsilon\boldsymbol{1} & \text{($T_\pi$ の定義)}\\ & = \gamma P_\pi \textcolor{red}{\delta}+2\gamma \varepsilon\boldsymbol{1}\,. & \text{($\delta$ の定義)} \end{align*}\]

両辺の絶対値をとり、三角不等式と式$\eqref{eq:stochmxne}$を用いる事で次の式を得る。 $\begin{align*} |\delta| \le \gamma \|\delta\|_\infty \boldsymbol{1} + 2\gamma \varepsilon\boldsymbol{1}\,. \end{align*}$ 成分の中の最大値$\max_s |\delta|_s= \|\delta\|_\infty$をとって、証明を終わりとする。 $\qquad \blacksquare$

証明の終わらせ方として、他に$\delta = \gamma P_\pi \delta + 2\gamma \varepsilon \boldsymbol{1}$から単調作用素$(I-\gamma P_\pi)^{-1} = \sum_{i\ge 0} \gamma^i P_\pi^i$を利用する事で$\delta \le 2\gamma \varepsilon \sum_{i\ge 0} \gamma^i P_\pi \boldsymbol{1} = 2\gamma \varepsilon/(1-\gamma) \boldsymbol{1}$を得る方法がある。この時も同様に両辺で最大値ノルムをとる事によって$\|\delta\|_\infty \le 2\gamma \varepsilon/(1-\gamma)$が得られる。

近似プランニングアルゴリズムとしての価値反復法

$\eqref{eq:vierror}$式より$k \geq H_{\gamma, \varepsilon} = \frac{\ln(1 / (\varepsilon (1 - \gamma)))}{1 - \gamma}$を満たすような $k$を取れば、$v_0 =0$から始まった価値反復法は、$v_k$で$\|v_k - v^*\| \leq \varepsilon$を満たす。さらに、方策$\pi_k$が$v_k$に関して貪欲ならば、$v^{\pi_k} \geq v^* - \frac{2 \gamma \varepsilon}{1 - \gamma} \boldsymbol{1}$を満たす。いま、ある$\delta>0$について$\delta = \frac{2 \gamma \varepsilon}{1 - \gamma}$を満たすように$\varepsilon$を固定すると、$k \geq H_{\gamma, \frac{\delta(1 - \gamma)}{2\gamma}}$回の反復後に、 $\delta$-最適方策$\pi_k$: $v^{\pi_k} \geq v^* - \delta \boldsymbol{1}$を得る。$\eqref{eq:vi}$を使って$v_{k+1}$の計算するのには$O(\mathrm{S}^2 \mathrm{A})$の計算コストがかかる。以上から、次のような結果を得る。

定理 (価値反復法による近似プランニングの実行時間):

ある有限割引MDPと、目標とする近似精度$\delta>0$を固定する。すると、

\[O \left(\mathrm{S}^2 \mathrm{A} H_{\gamma, \frac{\delta(1 - \gamma)}{2\gamma}} \right) = \tilde O\left( \frac{\mathrm{S}^2 \mathrm{A} }{1 - \gamma}\, \ln\left(\frac{1}{\delta}\right)\right)\]

回の数値演算の後で、価値反復法は$\delta -$最適方策$\pi$を生み出し、$v^\pi \ge v^* - \delta \boldsymbol{1}$の方策$\pi$が成り立つ。このとき、$\tilde{O}(\cdot)$での結果は、$\delta \le 1/e$が固定されていて、$\log(2/(1-\gamma))$が$\tilde{O}(\cdot)$記法により無視できる時に成立する。

必要な演算の回数はターゲット精度にとても穏やかに依存することに注意しよう。しかし、ここでいう精度は絶対誤差のことだ。最適価値は最大で$1/(1-\gamma)$だが、$\|v^*\|_\infty$が$1/(1-\gamma)$よりも著しく低い状態は容易に発生する。そういった場合、例えば$\|v^*\|_\infty = 0.01$であった時は$\delta = 0.5$という設定は無意味である。

$\eqref{eq:vierror}$式を利用して、この問題を避けるように結果を改善してみよう。

定理 (相対誤差をコントロールした時の実行時間): 有限割引MDP上でターゲット精度を$\delta_{\text{rel}}>0$と固定する。すると、反復回数$k \ge H_{\gamma,\frac{\delta_{\text{rel}}}{2\gamma}}$で価値反復を止めた時に方策$\pi$は以下の様な相対誤差バウンドを満たす。

\[v^\pi \ge v^* - \delta_{\text{rel}} \|v^*\|_\infty \boldsymbol{1}\,,\]

また、実行時間は以下の様に表す事ができる。

\[O \left(\mathrm{S}^2 \mathrm{A} H_{\gamma, \frac{\delta_{\text{rel}}}{2\gamma}} \right) = \tilde O\left( \frac{\mathrm{S}^2 \mathrm{A} }{1 - \gamma}\, \ln\left(\frac{1}{\delta_{\text{rel}}}\right)\right)\]

ここで、$\tilde{O}(\cdot)$ は $\log(1/(1-\gamma))$を無視している。

一定の相対精度を達成する為の実行時間は、同じレベルの絶対精度を達成するための必要実行時間とほぼ同等になる事に注目してほしい。実際には実行時間はわずかに減少する。この定理は以下の事を説明する。絶対誤差を採用した時のワーストケースは$\|v^*\|_\infty=1/(1-\gamma)$の場合だ。一方でこの時、相対誤差の要求はずっとゆるい。$\delta_{\text{rel}}=0.5$の時、$\delta = 0.5$の絶対誤差の目標値である$1/(1-\gamma)-0.5$よりもはるかに小さい$0.5/(1-\gamma)$を保証する事ができる。

なお、この相対誤差境界が全く問題ない訳ではない事に注意してほしい。ある状態 $s$では$v^*(s)-\delta_{\text{rel}} \|v^*\|_\infty$が負になる事があり得る。これは意味のない保証である。妥当な反復の終了基準として次の条件を満たす時に停止する事が考えらえる。

\[v^{\pi_k} \ge (1-\delta_{\text{rel}}) v^*\,.\]

$v^*$は実際には利用する事が出来ない為、検証可能であり上記の不等式に変わる終了条件として、たとえば$v^*$を$v_k +\gamma^k \|v_k\|_\infty/(1-\gamma^k) \boldsymbol{1}$に変えることができる。この手順では、1回の反復毎に方策$\pi_k$の価値関数を計算して終了条件をみたしているかどうかを確認する必要がある。このような計算をするのではあれば、$\eqref{eq:vi}$式の$v_k$を$v^{\pi_k}$に置き換えたほうが収束がより早くなるかもしれない。これが次の章で取り上げる方策反復である。

The Computational Complexity of Planning in MDPs

近似最適方策の計算結果を得たところで、我々が発見したアルゴリズムが不必要な作業をしているかどうかを尋ねるときだ。そういうわけで、最適あるいは近似的に最適な方策のミニマックスな計算コストはどうなっているのだろうか？

この問題を正確に定式化するために, 考慮されているアルゴリズムの入出力を特定する必要がある. 最も単純な設定はアルゴリズムに対する入力が配列である時に, 各状態行動対の遷移確率と報酬を何らかの順序の状態行動対(及び遷移確率に応じた遷移先状態)で表現することである.基本定理により, 出力はメモリーレス方策かつ決定的または確率的のどちらかになり得る. そのような方策を記述するために, アルゴリズムはテーブル表現で記述できる. 明白にアルゴリズムの実行時間は少なくとも記述に必要なテーブルのサイズ以上になり, 故に出力が短ければ短いほど実行時間はより良好になる. アルゴリズムに都合がいいように, 確率的な方策を出力することを仮定する. 結局, 基本定理は我々が最適な決定的なメモリーレス方策を常に発見できることも保証してくれる. さらに貪欲な方策は決定的であるように選ぶことができ, したがって価値反復アルゴリズムがこの要求を満たすこともできる. 最短の決定的な方策の特定方法は$\mathrm{S}$のエントリーを持つ状態空間のサイズの配列でできる.

したがって, いかなる完全に判別された方策を”生成する”ために必要なアルゴリズムの実行時間は少なくとも$\Omega(\mathrm{S})$となる.

これは非常にまずいことである. 前述の通り, 典型的な問題において, 状態数である$\mathrm{S}$は巨大になることが予期される. しかしこの簡潔な主張により, もしも完全に判別する方策を作成するためのアルゴリズムをいかなる補助もなく要求するのであれば状態数と同程度の計算量を実行する必要がある. ところがことはさらに悪いことになる.

Homework 0では, いかなるアルゴリズムも配列の全てのエントリを見ることなく配列における与えられた価値を見つけることができないことを確認した.(不思議なことに, 乱択な計算を行って良いのであれば, 計算量の期待値はエントリの半分ですむ)

これに基づくと, 次の結果を示すことは難しくない.

定理(MDPにおけるプランニングの計算複雑度): $0\le \delta < \gamma/(1-\gamma)$とする. ここで割引率$\gamma$は$0\le \gamma <1$, 報酬は$[0,1]$の区間にあるとする.テーブル表現される任意の有限MDPにおいてδ-最適方策を作成できることが保証されているいかなるアルゴリズムも少なくとも$\Omega(\mathrm{S}^2\mathrm{A})$の初等算述操作を, 上述の特徴と状態空間のサイズが$\mathrm{S}$で行動空間のサイズが$\mathrm{A}$からなる, 何らかのMDP上で要求する.

証明のスケッチ: 我々は、どのアルゴリズムに対しても、言及した回数の操作を少なくとも一つのMDPで実行する必要があるようなMDPの族を構築した。

状態の3分の1は”天国”に保存され, 別の3分の1は”地獄”に保存される. 残りの状態の集合は, これらを$R$と呼び, アルゴリズムが少なくない計算を必要とする部分になる. ここでのMDPは決定的に実行されている. アルゴリズムに入力として与えられるテーブルにおいて我々は(アルゴリズムの便宜上)”地獄”に含まれる状態が最初に来て, “天国”に含まれる状態, $R$に含まれる状態という順で状態を並べる.

“天国”状態のクラスでは, 全ての状態は全ての行動下でself-loopしており, 報酬1を与える. そのクラスにある任意の状態の最適価値は$1/(1-\gamma)$ である. “地獄”状態のクラスでは全ての行動下で属する状態の集まりの中で自己ループするが, 報酬は0を与える. これらの状態の最適価値は$0$である. 残りの状態では1つを除いた全ての行動は何らかの地獄状態へ遷移させるが, 一方で特別な行動は天国状態のクラス内の何らかの状態へ遷移させる.

$R$の集合内の全ての状態の最適価値は$\gamma/(1-\gamma)$であり, $R$内のある状態において特別な最適な行動を選択しない方策の価値はその状態において$0$を得る. δ-最適であることが保証されている任意のアルゴリズムは$R$内の各状態における最適な唯一の最適行動を特定する必要があることになる.

とりわけ, 状態$R$に属する各状態$s$と行動集合$\mathcal{A}$に属する行動$a$についてアルゴリズムは遷移確率ベクトル$P_a(s)$の$\Omega(\mathrm{S})$のエントリを読む必要がある, あるいは行動$a$が天国状態のクラスと地獄状態のクラスのどちらの状態の一つに遷移させるか判明できないことになる. 確率ベクトル$P_a(s)$は地獄状態を意味する全状態の3分の1のエントリか, 天国状態を意味する3分の1のエントリのどちらかの間で一つの値を持つ. 前述した宿題の問題により, この針を見つけるような必要のある任意のアルゴリズムは$\Omega(\mathrm{S})$のエントリを確認することが要求される. $R$内の状態数もまた$\Omega(\mathrm{S})$なので, 我々はアルゴリズムは$\Omega( (\mathrm{S}\times \mathrm{A}) \mathrm{S}) = \Omega( \mathrm{S}^2 \mathrm{A})$の計算量が必要であることを得る.$\qquad \blacksquare$

我々は続けざま直近で得た下界と我々が価値反復法で得た上界の違いを見る. 下界においては$1/(1-\gamma)$に依存しない. (実定数の精度のエフェクティブホライゾン) さらに精度の逆数$1/\delta$にも依存しない.

判明したことから, 価値反復の$1/\delta$への依存は余分なものであり, 取り除くことができる. これを達成するアルゴリズムが方策反復法であり, 最初の方に言及したアルゴリズムである. しかしながら, この結果は次の講義に残しておく. この後唯一残る差分は多項式オーダーと$1/(1-\gamma)$への依存である. これは我々が見るべき状態と行動の数に多項式の依存に密接に関連している.

そしてもちろん, 状態空間のサイズに実行時間が依存しているような状況をどうにか避けることを可能にする必要があるという最も喫緊の問題を後に残している.(一旦行動空間については忘れる.) ちょうど提示された下界により, 我々はすでにこれが問題設定を変更することを要求するであろうことを知っている. この問題設定をどのようにするかということこそ, このクラスにおいて振り返り続ける核心部分の疑問になるだろう.

Notes

価値反復法

価値反復法の考えはおそらくRichard Bellmanにより提案された.

貪欲化(価値関数について貪欲な方策を計算する)の誤差バウンド

この定理はSingh & Yee(1994) により提案された.

計算複雑度の下界

最後の定理はChen and Wang(2017)によるが、この定理の構築は(驚くべきことではないが)シミュレーションモデルに提供されるMDPにアクセスできる設定におけるクエリの複雑度を研究した初期の論文に現れたものとも似ている。

表現の重要性

計算量的問題をきちんと明白に定義するために(これは下界について議論ができるために必要である), 入力(そして出力)が明白である必要があることをすでに確認した. MDPのテーブル表現は表現が唯一ではない. 我々は”シミュレーションモデル”にちょうど言及した. ここではアルゴリズムは選択した状態行動対$(s,a)$を入力する. シミュレーターは任意の(確率分布から新しくサンプリングされた)遷移先状態と報酬$r_a(s)$で応答する. アルゴリズムは遷移先の状態と報酬を用いてMDPについて”学習”する. 興味深いことにこれはテーブル表現と比較してクエリの数を確実に減らすことができる.

もう一つのテーブル表現を維持したままの代案は, アルゴリズムに累積確率の表現を与えることである. この表現では, 状態は${1,\dots,\mathrm{S}}$で以前と同じく定義されるが, 固定した$(s,a)$に$[P_a(s,1), \dots, P_a(s,\mathrm{S})]$を与える代わりに

\[[P_a(s,1), P_a(s,1)+P_a(s,2), \dots, 1]\]

がアルゴリズムに与えられる. (最後のエントリは保存可能である, というのも常に1に等しいが, 長い目で見ればこれは問題ではないからである.) 今や, もしも元の確率ベクトルが一つの1とそれ以外では全て0を持つという, 干し草の中の針(望みのない探し物をすることの意)を見つけるような問題が下界の表現で使われていたが, より賢いアルゴリズムは二部探索などを用いてその1を持つエントリを高々$O(\log( \mathrm{S})) $のクエリで発見することができるのは明白である. 判明したことだが, この表現があれば, 良い方策の生成のために必要な クエリ複雑度 (要求されるクエリの数)は実際に状態数の2乗から状態数の対数線形への依存に減らすことができる. 従って, 入力表現が極めて問題になるとわかる. Chen and Wang(2017) もこの点を指摘もしており, 同様の高速化につながる”木”表現について説明している.

簡潔表現のMDP

シミュレーターモデルの前提は単に入力を読むことはボトルネックになるかもしれないという問題に取り組んでいる. これは方法が一つではない. 全ての状態行動対には触らずに良い方策を見つけることができる望みを持たせる良好な方法である短縮記述ができるMDPを多様なクラスで想像することは可能である. この分類に属するMDPのクラスには多くの例が存在する. これらには以下のものが含まれる

因子化(factored) MDPs:遷移ダイナミクスは短縮されて, 構造化(因子分解された)された表現を持ち, 報酬についても同様のことが当てはまる.
パラメトリック(parametric) MDPs:遷移ダイナミクスと報酬が短縮されたかつパラメータ表現を持つ. 線形2次レギュレータ(線形ダイナミクス, 二次の報酬, ユークリッド距離の状態と行動空間, 遷移ダイナミクスにおけるガウスノイズから構成される), ロボットシステム, 多用なORの問題を例に含む.

factored MDPは一つ問題がある. これらのMDPでは, プランニングは(計算量的に)とても難しいと証明されている. 線形2次レギュレータは一方でプランニングは容易である. 一度データを読み込むと, 必要なことは効率的な解法が考案された何らかの代数方程式を解くことだけである.

クエリ vs 計算複雑度

下界の鍵となる考えは優れたアルゴリズムは入力について”学習する”必要があることに依存する.: アルゴリズムの算術演算と論理演算の数は少なくとも発行する”読み取り”操作の数と少なくとも同じである. 何らかの望ましいプロパティの入力を生成するために必要な読み取り操作の最小数はクエリ複雑度の問題と呼ばれることが多く、上記の理由から計算複雑度はクエリの複雑度により下限が定められることがわかる. 偶然にも、クエリの複雑さの下限がクエリの複雑さよりも厳密に大きくなることはめったにないという意味で、クエリの複雑さは計算の複雑さよりもはるかに容易である(これに対する例外は、MDPの”コンパクトな”表現が利用可能な場合である. これはfactored MDPsの場合などが当てはまる) クエリの複雑度の中心にあるのは, 下界の決定は干し草の山の針を見つけるような問題である. これは入力が”決定論的”である場合に一般的に正しいようである. 結果を確率的(ランダム)な結果で照会する場合, ノイズを”拒否”, “削減” または”フィルターで除外”するために複数の参照が必要になる場合があり、新しい考慮事項が出現する.

任意の場合に, クエリ複雑度は適切な決定に早期に到達するために重要な情報を迅速に決定することに関する質問であり, “学習”に関するものである. テーブルを読み込む前は, アルゴリズムはどのMDPに直面しているかを認識しない. 従ってクエリ複雑度は本質的に”情報”の質問であり, 情報複雑度と呼ばれることもある. クエリ複雑度は最も基本的な情報理論の質問と考えることができる. これは, ランダムな応答(きれいな情報のランダムの”破損”)の影響を減らすことに何らかの形で結びついている主流の情報理論とは少し異なる.

色々なクエリ複雑度

クエリ複雑度はたくさんのコミュニティで幅広く研究されているが, 残念ながらこれらのコミュニティはほぼお互いが断絶している. 情報理論は上で言及されたものの一つだが, 着目されていることではあるが, ここでの問題はノイズが存在する中で情報を獲得する速度を研究することとしばしば結びつけられてきた. 情報理論の他に, 情報ベースの複雑度の全域があり, そこにはそれ自体のジャーナルや複数の本などが存在する. またその一つは進化アルゴリズムの複雑度を研究している学説コミュニティである. これ以外にも、もちろん、クエリ複雑度は最適化(ノイズがあるにせよないにせよ), オペレーションズリサーチの文脈や, そしてもちろん機械学習や統計のコミュニティでも登場する. 特に機械学習や統計のコミュニティではアルゴリズムが単にノイズの多いデータである”サンプル”を渡しただけの場合,(例えば未知のデータに対する良好な予測など)適切な結果を達成するためにこのサンプルサイズを尋ねることができる. これによりサンプル複雑度の概念が導き出され, これはクエリが”次のデータポイントを渡せ”という”活動的ではなく”, “受動的な”性質であることを除いて我々のクエリ複雑度と同じである. これらのコミュニティのうち, クエリがより興味深い問題場合には学習は”アクティブ”と呼ばれる.

フリーランチ, 干し草の中の針問題, 少しの哲学

ほんの少し機械学習の学会へ参加したり初学書あるいはブログを読んだりするとDavid Wolpertの”ノーフリーランチ定理”を目にすることになる. けれども, これらの定理の正確な本質(あるいは重要さ)は大半の人には捉え所のないもののままになっている. 全ての人はこれらの定理が本質的には”バイアスがなければ全てのアルゴリズムは等価である”(そしてそれゆえにタダで得られるものは存在しない), このことからアルゴリズムを選択する唯一の方法はバイアスを導入することによる結論を下すべきである,ということを主張していることを耳にしたことがある.

しかしバイアスは何を意味するのだろうか？これらの結果を注意深く(進化計算の理論コミュニティはこの問題をわかるようにするという良い仕事をしている)読むと, 結論は見つかる望みのないものを見つけようとしている(長い配列の中の特別なエントリの一つを配列全てのエントリから見つける)という帰結を書くことに他ならない.

データパワー信者は問題に対して何らか構造を前提としないのは馬鹿げているという主張をすることにより, ノーフリーランチの重要性を無視することを好む. 私はこの主張は弱いと思う. 主な問題はこれらが問題をきちんと見ていない点である. 問題をきちんと見ていないという点はアルゴリズムが達成してほしいことを明確にしたがらないことに起因する. 主張はそれが明らかになる, つまり, 目標あるいは単に問題の仕様について明白にすると, 問題クラス内の”干し草の中の針”にあたる細かいサブ問題をいつでも見つけることができるということである. これはまさに我々が研究する価値があると考えるほとんど全ての合理的な問題に密かに現れるシンメトリ(シンメトリは構造と等価ではない)である. 「干し草の山の中の針」の状況が埋め込まれていない唯一の問題は、まったく仕様が決まっていない問題である.

このすべての結論は何だろうか？ある意味で、本当の問題は、我々が解決したい問題が何であるかを明確にすることである. これは、私の分野のほとんどの理論家が毎日苦労している問題である. これが難しいからといって、始める前にこれをあきらめることはできない. さもないと、混乱につながるだけである.

このクラスで見るように, 問題を特定する方法も強化学習理論研究の中心である. 我々は常にさまざまな問題の定義で実験を行い, さまざまな方法でそれらを微調整し, 絶望的に難しい問題を簡単ではあるがほどほどに一般的な問題から分離しようとしている. 理論家は, 問題設定を相互に関連付けるなど, さまざまな方法で分類できる多用な問題設定の目録を構築することを好む. アルゴリズムの設計は強化学習(およびより一般的にはコンピューターサイエンス)の非構成的側面ではあるが, さまざまな問題設定間の関係を理解することも同様に重要である.

References

Chen, Y., & Wang, M. (2017). Lower bound on the computational complexity of discounted markov decision problems. arXiv preprint arXiv:1705.07312. [link]
Singh, S. P., & Yee, R. C. (1994). An upper bound on the loss from approximate optimal-value functions. Machine Learning, 16(3), 227-233. [link]