Link Search Menu Expand Document

15. 方策探索から方策勾配法へ

前回までの講義では、多くの状態行動対から成る空間で、価値関数が少しのパラメータでコンパクトに表現できると仮定し、 プランニングの複雑性を減らすことを試みた。 多項式時間で終了するMDPプランナにとって、価値関数はなくてはならない構成要素だが、(講義3 および 4を参照されたい)、 より大きなMDPの場合でも同様に優先されるべきかどうかは、全く明らかではない。 おそらく、簡潔に記述された方策の集合を考えるのが、より自然だろう。 フォーマルに言えば、この問題設定では、プランナはあるブラックボックスな(例えば、$\gamma$-discounted)MDPシミュレータへのアクセス権を与えられる。しかしこのインターフェイスはまた、パラメータ化された$(\mathcal{S},\mathcal{A})$上での方策の集合\(\pi = (\pi_\theta)_{\theta\in \mathbb{R}^d}\)へのアクセスもまた提供する。ここで、任意の固定されたパラメータ$\theta\in \mathbb{R}^d$について、 $\pi_\theta$は確率的なメモリレス方策 $\pi_\theta:\mathcal{S} \to \mathcal{M}_1(\mathcal{A})$ だ。

例えば$\pi_\theta$は、ある特徴量マップ $\phi: \mathcal{S}\times \mathcal{A} \to \mathcal{R}^d$について、以下のような方策になりうる。 \(\begin{align} \pi_\theta(a|s) = \frac{\exp( \theta^\top \varphi(s,a))}{\sum_{a'} \exp(\theta^\top \varphi(s,a'))}\,, \qquad (s,a)\in \mathcal{S}\times \mathcal{A}\,. \label{eq:boltzmannpp} \end{align}\)

この場合、$\pi_\theta$への「アクセス」は$\varphi$へのアクセスを意味し、$\pi_\theta$と$\varphi$の両方がグローバル(プランナが全ての状態行動対についての$\varphi$を与えられ、それに対しどんな前処理でもすることができる場合)にも、またローカル(「次状態」$s’\in \mathcal{S}$と任意の行動$a$についての$\varphi(s’,a)$がシミュレータにより与えられる)にもなりうる。 もちろん、この例における指数関数は他の関数でもおきかえられる。また、ただ「スコア」を出力させるのにニューラルネットワークを使い、それをなんらかの方法で確率に変換してもいい。 確率的な方策を使わないのであれば、もっと狭い方策のクラスの例として、適当なパラメータのクラスに属する行動価値関数に対して貪欲な方策のクラスが考えられるだろう。 また特殊なケースだが、以下のような方策も、その単純さゆえに注目されてよいだろう。 $\mathcal{S}$ が $m$ 個の (排他) 部分集合 $\mathcal{S}_1,\dots,\mathcal{S}_m$ に分割され、$i\in [m]$について、$\mathrm{A}$個の基底関数を持つような場合は、以下のように定義される。

\[\begin{align} \phi_{i,a'}(s,a) = \mathbb{I}( s\in \mathcal{S}_i, a= a' )\,, \qquad s\in \mathcal{S}, a,a'\in \mathcal{A}, i\in [m]\,. \label{eq:stateagg} \end{align}\]

ここで、乱雑さを避けるため、基底関数が状態行動対によりインデックスされ、また行動集合$\mathcal{A}$は${ 1,\dots,\mathrm{A}}$から成るものとした。 すると方策は、$m$個の確率ベクトル$\theta_1,\dots,\theta_m\in \mathcal{M}_1(\mathcal{A})$の集合$\theta = (\theta_1,\dots,\theta_m)$により与えられる。

\[\begin{align} \pi_\theta(a|s) = \sum_{i=1}^m \sum_{a'} \phi_{i,a'}\theta_{i,a'}\,. \label{eq:directpp} \end{align}\]

$\phi$ の特殊な選び方により、 $s\in \mathcal{S}_i$ であるようなユニークなインデックス $i\in [m]$ について、 \(\pi_{\theta}(a|s) = \theta_{i,a}\) となることに注意されたい。 これは状態集約として知られている。 同じグループに属する状態は、同じ行動空間上の確率分布を返す。 特徴量マップ$\varphi:\mathcal{S}\times \mathcal{A}\to \mathbb{R}^d$ が適切な基底関数の再インデックス化により \eqref{eq:stateagg} のかたちをとるとき、これを状態集約型の特徴量マップと呼ぶ。

いま、状態集約型の特徴量マップを固定しよう。 これに対し、\eqref{eq:directpp}で与えられた方策の直接的なパラメータ化も、\eqref{eq:boltzmannpp}で与えられた「ボルツマン」型のパラメータ化も、両方考えることができる。

この二つのパラメータ化により表現できる方策集合がほとんど同じであることは、容易に確認できる。$\Pi_{\text{direct}}$を$\varphi$と直接的なパラメータ化を使って表せる方策の集合とし、$\Pi_{\text{Boltzmann}}$を$\varphi$とボルツマン型のパラメータ化を使って表せる方策の集合とする。まず\(\Pi_{\text{direct}},\Pi_{\text{Boltzmann}} \subset \mathcal{M}_1(\mathcal{A})^{\mathcal{S}} \subset ([0,1]^{\mathrm{A}})^{\mathrm{S}}\)であり、$\Pi_{\text{Boltzmann}}$の閉包(closure) $\text{clo}(\Pi_{\text{Boltzmann}})$ をとると、以下のことに気がつく。

\[\text{clo}(\Pi_{\text{Boltzmann}}) = \Pi_{\text{direct}}\]

特に、ボルツマン方策は有限パラメータではある点においてだけ確率が1になるような分布を表現できないが、パラメータベクトルを無限に大きくしてよいなら、直接的パラメータ化により表現できる任意の方策を、ボルツマン方策により表現できる。 先に述べたように、他にも多くのパラメータ化がある。重要な点は、アルゴリズムが実際に圧縮された表現を用いて動作するためにはパラメータ化が必要だが、異なる表現により全く同じ方策集合を記述できるということだ。

方策探索

そういうわけで、ちょうどいい目標としては、プランナーにそのパラメータ化のクラスの中での最適方策か、適当な正の$\varepsilon$について$\varepsilon-$最適方策と競ってもらうことだろう。 任意の $\theta’\in \mathbb{R}^d$について$v^{\pi_\theta}\ge v^{\pi_{\theta’}}-\varepsilon\boldsymbol{1}$ となるようなパラメータ$\theta$は存在しないかもしれないので、 計算される方策が適当な初期状態分布$\mu \in \mathcal{M}_1(\mathcal{S})$からスタートしたときに最適に近づくことを要求して、問題を簡略化しよう。

$J: \text{ML} \to \mathbb{R}$ を、以下のように定義する。

\[J(\pi) = \mu v^{\pi} (=\sum_{s\in \mathcal{S}}\mu(s)v^{\pi}(s)),\]

方策探索問題 は、以下の条件を満たすようなパラメータ $\theta\in \mathbb{R}^d$ を見つける問題だ。

\[\begin{align*} J(\pi_{\theta}) = \max_{\theta'} J(\pi_{\theta'})\,. \end{align*}\]

この問題の近似版は、以下の条件を満たすような$\theta\in \mathbb{R}^d$ を見つけるのが目標になる。

\[\begin{align*} J(\pi_{\theta}) = \max_{\theta'} J(\pi_{\theta'}) - \varepsilon\,. \end{align*}\]

フォーマルな問題の定義は、以下のようになる。 あるプランニングアルゴリズムは、MDP $M$と方策のパラメタ化$(\pi_\theta)_{\theta}$を与えられる。私たちの目標は、行動数$\mathrm{A}$と方策のパラメータ数$d$の多項式時間で方策探索問題の解答を出すようなアルゴリズムを見つけることだ。 MDPが有限の状態しか持たないならもっと簡単な問題になり、アルゴリズムは $\mathrm{S}$・$\mathrm{A}$・$d$の多項式時間で終了しなければいけない。この場合、アルゴリズムにとって、MDPの正確な記述を与えられることは (講義3で見たように)明らかなアドバンテージだ。 残念ながら、この簡単なバージョンの方策探索問題は、多項式時間では解けない。


定理 (方策探索の難しさ): $\text{P}=\text{NP}$でない限り、方策の空間が定数方策限定されていて、MDPが決定的でかつバイナリ報酬(0/1)を持つものに限定されていたとしても、 有限方策探索問題を多項式時間で解くアルゴリズムは存在しない。


定数方策は、各状態について同じ(行動空間上の)確率分布を割りあてるようなものだ。これは、全ての状態が一つのクラスに集約される、状態集約の特別なケースになる。方策は状態に依存しないので、この問題はまた ブラインド方策探索問題としても知られている。この結果は、使用される表現に関らず、全ての定数方策について成り立つ。

証明: $\mathcal{S} = \mathcal{A}=[n]$ とする。 環境のダイナミクスは決定的で、状態$n$で行動$a\in \mathcal{A}$をとったならば次状態は$a$となる 方策は単純な行動空間上の確率分布\(\pi \in \mathcal{M}_1([n])\)であり、我々はこれを$[0,1]^n$の値をとる列ベクトルとしてとらえる。 $\pi$のもとでの遷移関数は$P_{\pi}(s,s’) = \pi(s’)$であり、また、行列形式では、$P_\pi = \boldsymbol{1} \pi^\top$だ。 明らかに $P_\pi^2 = \boldsymbol{1} \pi^\top \boldsymbol{1} \pi^\top = P_\pi$ (すなわち、 $P_\pi$は冪等)だ。 よって、任意の$t>0$について$P_\pi^t = \boldsymbol{1}\pi^\top$であり、以下が成り立つ。

\[\begin{align*} J(\pi) & = \mu (r_\pi + \sum_{t\ge 1} \gamma^t P_\pi^t r_\pi) = \mu \left(I + \frac{\gamma}{1-\gamma} \boldsymbol{1} \pi^\top \right)r_\pi\,. \end{align*}\]

$R\in [0,1]^{n\times n}$となるように$R_{s,a} = r_a(s)$を定義して、$r_\pi = R\pi$を得る。 これを上記の等式にあてはめて、$\mu \boldsymbol{1}=1$を使うと、以下を得る。

\[\begin{align*} J(\pi) & = \mu R \pi + \frac{\gamma}{1-\gamma} \pi^\top R \pi\,. \end{align*}\]

よって、方策探索問題が確率単体上での二次式の最大化と等しいことがわかった。 $R$に制限はないので、これは難しい問題だと推測できるだろう。実際に難しいということは、これを最大独立集合問題に帰着することで証明できる。 最大独立集合問題は、あるグラフの独立数がある閾値より大きいかどうかをたずねる問題で、$3$-正則グラフ (全ての頂点がちょうど3つの近傍しか持たないようなグラフ)についてすらNP困難であることが知られている。 ここで、グラフの独立数は、以下のように定義される。単純なグラフ (自己辺・二重辺がない無向グラフ)$G=(V,E)$について、独立集合はお互いに近接していないような頂点の部分集合である。$G$の独立数は、以下のように定義される。

\[\begin{align*} \alpha(G) = \max \{ |V'| \,:\, V'\subset \text{ independent in } G \}\,. \end{align*}\]

二次最適化の問題は、最大独立集合問題と近しい関係を持つ。


Lemma (Motzkin-Strauss ‘65): \(G\in \{0,1\}^n\) を単純なグラフの頂点間隣接行列とする ($(i,j)$間に辺があるときのみ$G_{ij}=1$となるような行列) 。 すると、$n\times n$の単位行列\(I\in \{0,1\}^{n\times n}\)について、

\[\begin{align*} \frac{1}{\alpha(G)} = \min_{y\in \mathcal{M}_1([n])} y^\top (G+I) y\,. \end{align*}\]

いま、多項式時間で方策探索問題を解くようなアルゴリズムが存在するなら、それは単純な$3$-正則グラフに対する最大独立集合問題を解くのにも使えることを示す。 このために、$n$個頂点があるような$3$-正則グラフ$G$を選ぶ。MDPを、上記のように$n$個の状態と行動があり、報酬が$R = E-(I+G)$により決定されるものとして定義する。 ただし$G$はグラフの頂点間隣接行列を表し、$E$は全ての要素が1の行列$E = \boldsymbol{1} \boldsymbol{1}^\top$である。 我々は報酬が$[0,1]$の範囲におさまり、また実際に要求通りバイナリ値をとるように$E$を加える。 $\mu$を状態空間上での一様分布とする。グラフが$3$-正則なので、$\boldsymbol{1}^\top (I+G) = 4 \boldsymbol{1}^\top$となることに注意しよう。 すると、$\pi \in \mathcal{M}_1(\mathcal{A})$について、$\mu E \pi = \pi^\top E \pi = 1$に注意して、以下が成り立つ。

\[\begin{align*} J(\pi) & = \mu E \pi - \mu(I+G) \pi + \frac{\gamma}{1 - \gamma}\pi^\top E \pi - \frac{\gamma}{1-\gamma} \pi^\top (I+G) \pi \\ & = \frac{1}{1-\gamma}- \mu(I+G) \pi - \frac{\gamma}{1-\gamma} \pi^\top (I+G) \pi \\ & = \frac{1}{1-\gamma}- \frac{1}{n} \boldsymbol{1}^\top (I+G) \pi - \frac{\gamma}{1-\gamma} \pi^\top (I+G) \pi \\ & = \frac{1}{1-\gamma}- \frac{4}{n} - \frac{\gamma}{1-\gamma} \pi^\top (I+G) \pi\,. \end{align*}\]

よって、 \(\begin{align*} \max_{\pi \in \mathcal{M}_1([n]} J(\pi) & = \frac{1}{1-\gamma}- \frac{4}{n} - \frac{\gamma}{1-\gamma} \frac{1}{\alpha(G)} \ge \frac{1}{1-\gamma}- \frac{4}{n} - \frac{\gamma}{1-\gamma} \frac{1}{m} \end{align*}\) が$\alpha(G)\ge m$のときのみ成り立つ。 よって、$J(\pi)\ge a$を決定する問題は、少なくとも最大独立集合問題と同じくらい難しい。最大独立集合問題はNP困難な問題なので、この結果が従う。 \(\qquad \blacksquare\)

可能な対策: ローカル探索

たった今証明した定理に基づくと、制限された方策クラスにおいて、たとえそのクラスがとても良さそうに見えても、最適方策と競合するような計算効率の良いプランナーを見つけることは、あまり期待できない。 これは、より控えめな目標を目指す動機になるだろう。一つの選択肢は、写像$J:\pi \mapsto \mu v^{\pi}$の定常点を計算することを目標にすることだ。 $\Pi = { \pi_\theta \,:\, \theta\in \mathbb{R}^d } \in [0,1]^{\mathcal{S}\times\mathcal{A}}$ を表現可能な方策の集合としよう。 これを「大きいベクトル」だととらえる(TODO: え?)。 すると、このアプローチでは、我々は任意の $\pi’\in \Pi$ と\(\pi^*+\delta (\pi'-\pi^*)\in \Pi\)となるのに十分小さな $\delta>0$について、\(J(\pi^*+\delta (\pi'-\pi^*))\le J(\pi^*)\)となるような \(\pi^*\in \Pi\)とそのパラメータを識別することを目標とする。 小さな$\delta$について、 \(J(\pi^*+\delta (\pi'-\pi^*))\approx J(\pi^*) + \delta \langle J'(\pi^*), \pi'- \pi^* \rangle\)となる。 これを先の不等式に代入して、並べかえてから$\delta>0$で割ると、以下を得る。

\[\begin{align} \langle J'(\pi^*), \pi'- \pi^* \rangle \le 0\,, \qquad \pi' \in \Pi\,. \label{eq:stp} \end{align}\]

ここで、 $J’(\pi)$ は$J$の微分を表す。 確める必要があるのは、(1) \(\pi^*\)を計算することへの目標の緩和が、計算時間を減らすのかどうか (また減らすならいつそうなるのか)、(2) \(J^* = \max_{\pi\in \Pi} J(\pi)\)と比較したときの \eqref{eq:stp}を満たす$\pi^*$のパフォーマンスについて、何らかの保証を得ることができるのか、つまり、近似保証を得られるのかどうかだ。 後者にいては、MDP $M$ と$\Pi$ (または $\Pi$ が何らかの特徴量マップに基づいているなら $\phi$)の関数 $\varepsilon$で、以下を満たすようなものを探すことになる。

\[\begin{align*} J(\pi^*) \ge J^* - \varepsilon(M,\Pi) \end{align*}\]

計算方法については、(近似的に)$\theta \mapsto J(\pi_\theta)$の勾配を上っていく単純なアプローチを考えることになるだろう。

ノート

アクセスモデル

$\pi_\theta$ が \eqref{eq:boltzmannpp}によって与えられるものに制限されないとき、読者は何が適切な「アクセスモデル」なのだろうかと疑問に思うかもしれない。 選択肢はたくさんある。 一つは特定のパラメータの形式に対してプランナを構成することだ。より汎用的なアプローチは、プランナーに、 プランナーが訪問した任意の$s$とプランナーが選んだ任意の値 $\theta\in \mathbb{R}^d$について、 \(\pi_{\theta}(\cdot\vert s)\) と $\frac{\partial}{\partial\theta}\pi_{\theta}(\cdot \vert s)$ へのアクセスを許可することだ。 これは、最適化理論で親しまれている一次ブラックボックスオラクルモデルに近い。

関数近似からPOMDPへ

方策探索の難しさに関する結果は、Vlassis・Littman・Barberによる論文からとられた。彼らが実際に興味があったのは、部分観測マルコフ決定問題 (partially observable Markov Decision Problems) (POMDPs) におけるプランニングの複雑性だった。 関数近似のもとでのMDPにおけるプランニングが、POMDPにおけるプランニングの特殊なケースになるというのは、実際重要な観察だ。 特に、もし方策がある特徴量マップ$\phi:\mathcal{S}\to \mathbb{R}^d$ に依存するもの (同じ特徴を持つ任意の2状態が、割りあてられた同じ行動分布を持つ)に制限されている場合は、この制約されたクラスのもとでの報酬和最大化プランニングは、観測関数が$\phi$であるような特定のPOMDPでの報酬和最大化プランニングの問題とほとんど同じになる。 とはいえ、状態にアクセスできるのであれば、関数近似MDPでのプランナーには依然としてアドバンテージがある。 特に、探索を助けるために特徴マップを与えられたが、 状態へのアクセスも与えられたローカルプランナーは、実際のところ、 特徴が制限された方策クラスからサンプルされた行動をとるようには制約されていない。 機械学習においては、あるクラス内で最良の予測器と競合するが、その競合相手に課された制約を尊重しない予測器を用いる類似の問題は不適切と呼ばれ、不適切な学習は適切な学習よりも強力であることが多いことが知られている。 しかし、オンライン学習やバッチ学習では、特徴制限学習とPOMDPの学習は完全に類似している。 最後に、ちなみに言っておくと、Vlassis et al. (2012)は、方策探索がNPですらなさそうだと示す議論も追加している。

オープンプロブレム: 近似方策探索の難しさ

この章での結果は、近似バージョンの方策探索もまたNP困難であることを示唆している (Arora、 Barak 2009の定理11.15)。特に、先ほどと同様の構成で、もし$J(\pi) \ge \max_\pi J_\pi - \varepsilon$となるような方策を見つける効率のいい方法があれば、それが以下に示す$3$-正則グラフに対し、サイズ$\alpha(G)/c$の独立集合を見つけることができることを示すのは、あまり難しくない。この際グラフが満たす条件は以下のようになる。

\[c = 1 + \frac{1-\gamma}{\gamma} \varepsilon \alpha(G) \le 1+ \frac{1-\gamma}{\gamma} \varepsilon n \le 1+\varepsilon n\]

ここで、最後の不等式は$\gamma=0.5$を選べば従う。 いま、最大独立集合の近似が難しいという結果がある (任意の固定された$c>1$についてサイズ$\alpha(G)/c$の独立集合を見つけるのは難しい)とはいえ、この結果がまた$3$-正則グラフについてのものであれば、これは近似方策探索の難しさしか示唆しない。また、上記の$c$についてのバウンドはナイーブすぎる。例えば、$c \le 2$を得るためには$\varepsilon\le 1/n$が必要であり、これは$\varepsilon$の小さいレンジだ。「定数の」($n$と独立な)$\varepsilon$について、難しさの結果を得るためには、もっとたくさんの研究が必要だろう。

広大な行動空間に対処する

方策探索を考える一般的な理由は、限定されたパラメトリックな方策の集合を扱うことで、学習とプランニングの計算コストを行動空間の濃度から切り離すことができるためだ。 実際、行動価値関数では通常、(ある固定の行動価値関数に関して)貪欲な行動を効率的に計算する方法が必要だ。

行動空間と価値関数$q(s,\cdot)$に何らかの構造を仮定せず$\arg\max_{a\in \mathcal{A}} q(s,a)$を計算すると、$\mathcal{A}$のサイズに対して線形時間がかかる。 これは$\mathcal{A}$の濃度が小さくない場合は非常に問題だ。 多くの実用的なアプリケーションでは実際、$\mathcal{A}$の濃度は小さくない。行動空間は何かの「組み合わせの大きさ」になったり、(時に多次元の)連続空間の部分集合になったりする。

もし$\pi_{\theta}(\cdot\vert s)$からのサンプリングが効率的に行えるのであれば、上記のような大変な計算を回避できるかもしれない。そのため、方策探索はしばしばアルゴリズムを拡張して広大な行動空間を扱うための対処法として提案される。もちろん、これはサンプリング問題が確かに効率よく実行できる場合のみ適用され、方策表現に余計な制約を加えることになる。しかし、これを実現するための選択肢は数多く存在する。例えば、暗黙的な表現を(時に確率や密度による直接的な表現と併用して)方策に使うことができる。

例えば、$\pi_\theta(\cdot\vert s)$からのサンプリングが、集合$\mathcal{R}$上の固定された分布から$R\sim P$をサンプルして$\mathcal{R}$を返すことで実現されるように、方策を写像$f_\theta: \mathcal{S} \times \mathcal{R} \to \mathcal{A}$で「表現」してもよい。これは、どの入力に対しても$f_\theta$が効率的に評価でき、乱数$R$が効率的に生成できる場合は、明らかに効率的だ。$f_\theta$が十分柔軟なら、実際$P$に標準正規分布や一様分布のような非常に単純な分布を選択することが可能だ。

$\mathcal{A}$が連続的でかつ方策が決定的である場合は、特別なケースであることに注意が必要だ。 重要なポイントは、$\pi_\theta(\cdot\vert s)$から効率的にサンプルを生成できることで、この場合はサンプルが決定的に計算できることだ。

ここで落とし穴になるのは、それでもまだ$\pi_{\theta}(\cdot\vert s)$のパラメータ$\theta$に関する微分が必要だということ、そして上記の暗黙的な表現を用いる場合は、この微分が効率よく求められるかよくわからないということだ。結論から言うと、$f_{\theta}(\cdot\vert s)$がこの性質(効率よく行動をサンプルできること)を満たす簡単な(可逆でかつ微分可能な)変換の合成でできていれば、チェインルールから、微分の計算は可能になる。この観察は、「ニューラル」密度推定への様々なアプローチ(例えば、Tabak and Vanden-Eijnden, 2010, Rezende, Mohamed, 2015, あるいは Jaini et al. 2019)の基礎となるものだ。

参考文献

  • Vlassis, Nikos, Michael L. Littman, and David Barber. 2012. “On the Computational Complexity of Stochastic Controller Optimization in POMDPs.” ACM Trans. Comput. Theory, 12, 4 (4): 1–8.

  • Esteban G. Tabak. Eric Vanden-Eijnden. “Density estimation by dual ascent of the log-likelihood.” Commun. Math. Sci. 8 (1) 217 - 233, March 2010.

  • Rezende, Danilo Jimenez, and Shakir Mohamed. 2015. “Variational Inference with Normalizing Flows” link.

  • Rezende, D. J., and S. Mohamed. 2014. “Stochastic Backpropagation and Approximate Inference in Deep Generative Models.” ICML. link.

  • Jaini, Priyank, Kira A. Selby, and Yaoliang Yu. 2019. “Sum-of-Squares Polynomial Flow.” In Proceedings of the 36th International Conference on Machine Learning, edited by Kamalika Chaudhuri and Ruslan Salakhutdinov, 97:3009–18. Proceedings of Machine Learning Research. PMLR.

  • Arora, Sanjeev, and Boaz Barak. 2009. Computational Complexity. A Modern Approach. Cambridge: Cambridge University Press.

最大独立集合問題の難しさは古典的な結果だ。例えば、上記のArora and Barak (2009)の定理2.15にある。もっとも、この証明は3-正則グラフでの難しさについては言及していないが。 Gamowのstackexchangeでのコメントによれば、「この問題のNP-完全性の完全な証明は以下の論文の定理4.1の直後にある」。

  • Bojan Mohar: “Face Covers and the Genus Problem for Apex Graphs” Journal of Combinatorial Theory, Series B 82, 102-117 (2001)

同じページで、Yixin Caoは近傍数が3以上の頂点を(おそらく独立数を変えることなく)取り除く方法があると言及し、別のstackexchangeページへのリンク を参照している。