17. イントロダクション

バッチ学習では, 学習アルゴリズムの制御下にはない何らかの方法で収集されたデータ（データのバッチ）を扱う必要がある問題を対象とする. 長さの異なる軌道のシーケンスがデータとして与えられ, 各軌道は$\tau = (S_0, A_0, R_0, S_1, A_1, R_1, \dots, S_t, A_t, R_t, S_{t+1})$のような形式を取る. ここで, $A_i$は（「過去の」データに基づいた）因果的な方法で選択され, $(R_t, S_{t+1}) \sim Q_{A_t}(S_t)$について, $Q = (Q_a(s))_{s, a}$は通常通り, 実数と状態の組に対する確率分布の集合とする（確率的報酬を許容したい場合である）.

バッチRL問題は大きく次の２つに分類される.

価値予測: 初期分布$\mu$からの方策$\pi$の価値$\mu v^\pi$を予測する (これを初期価値推定問題と呼ぼう). ここで、$\mu$と$v^\pi$は明示的に与えられている.
方策最適化: MDPのデータのバッチが与えられたときに，良い(理想的には最適に近い)方策を見つける．

この2つの問題は密接に関連している. 一方では, 良い予測器は良い方策を見つけるために使われることがある. 他方, 良い方策最適化は, 与えられたデータを適切に処理すれば, ある方策の値がある閾値以上か以下かについて判断することも可能である. そして, 二分探索的にこの判断を繰り返せば, ある方策の価値が求まるだろう.

価値予測問題にはいくつかのバリエーションがある. 例えば, 方策評価では, ある固定された初期分布に対する方策を評価するのではなく, 方策の価値関数全体を推定することが目標となる. これは初期価値推定問題と少なくとも同程度には難しいが, 実は, 方策評価問題の難しさのほとんどは初期価値推定問題の難しさと同じである. ほとんどの場合, 初期分布に対する予測では単に「点推定」を行うのではなく, 未知の真値を含む区間を所定の確率で予測することが目標となる. これは方策評価問題にも同様に対応させることができ, 未知の真の価値関数を含む集合を所定の確率で予測することに相当する. つまり方策評価の場合では, より単純なゴールを考えると, 各入力（状態）に対する信頼区間を推定し, それを「貼り合わせ」て信頼区間を形成するように可視化することが目標である.

以上とは別に, データの収集方法についての問題もある. 統計学では, データの収集の「良い方法」を設計する問題は実験計画問題と呼ばれる. もちろん, 一番良いのは能動的なデータの収集だろう. 能動的なデータの収集では, これまでに収集されたデータに応じて, データの収集方法が変化していく.

能動的なデータ収集方法を設計する問題は, オンライン学習アルゴリズムの設計という, より大きなグループになる. オンライン学習でのデータ収集は過去のデータに依存して定義される. オンライン学習についての説明は最後の方の講義に任せる.

多くのアプリケーションでは, 能動的なデータ収集は選択肢に入らない. 能動的なデータ収集は, 高リスク, 高コスト, あるいは技術的な難易度など, さまざまな理由で嫌われてしまう. 一方で, 受動的なデータ収集の場合は, 良い解決策を導き出すための重要な情報を見逃してしまうかもしれない. それでも, 受動的なデータ収集にも優れたものや悪いものがある. 実験計画の最適化とは, 良い学習結果につながるように受動的にデータ収集方法を選択する問題である. このトピックは, プランニングアルゴリズムの文脈でも, 価値関数を推定する必要があり, そのためには, 学習を成功させるためにデータ収集を計画する方が良いということで出てきた.

しかし, 多くの場合, データの収集方法はコントロールできない. もっと悪いことに, データを収集するために使用された方法が不明な場合もある. このような場合, 次の例が示すように, あまり多くのことはできない.

$0$と$1$の行動を持ち, 報酬がベルヌーイ分布に従うバンディット問題を考えよう. 報酬の分布は, $a=1$ではパラメータが$0.1$のベルヌーイ分布, $a=0$ではパラメータが$0.9$のベルヌーイの分布と仮定する. これをするために, 取った行動と組み合わせて報酬を完全に決定する確率変数を$Z$とする. 例えば, $Z$を$p=0.1$のパラメータを持つベルヌーイ分布に従うとして, 行動を選択して得られる報酬を

\[R(a) = aZ + (1 - a)(1 - Z)\]

としよう. こうすると, $R(a)$は$a=1$のとき$0.1$のベルヌーイ分布を持ち, $a=0$のとき$0.9$のベルヌーイ分布を持つということと矛盾しない. ここで, データ収集時に行動が$Z$に基づいて選択されるとしよう. つまり, 何らかの$\pi$について, $A=\pi(Z)$とする. 具体的にするため, データ収集の間，$A=Z$とする. このとき，収集したデータを$(A, R(A))$, つまり$(Z, 1)$のペアに従う分布を持つとしよう ($z=a=0$のときも$z=a=1$のときも$R(A)$は1を取る). すると, 行動はランダムであるが，より高い報酬につながる行動を選ぶことはもちろん, 明らかにどの方法も, $R(0)$ または, $R(1)$ の平均値を適切に推定することができないだろう. このように, 観測されたデータの条件付き平均値によって, 最適な行動を最適でない行動より悪く見せる例を作るのは難しくない.

これは, データの取り方によって正しいモデルが推定できない例である. 結果をコントロールするが記録されないような変数に擬似相関が存在すると, データの量に関係なく, 収集したデータが簡単に使えなくなる. これは, 無限にデータを集めてもモデルが特定できない例である.

上記の例のようにデータ収集が恣意的である場合, データからモデルが特定可能かどうかは, そのドメインをよほど注意深く研究しない限りわからない. つまり, 目の前の問題の構造を考える活動が必要になるのだ. もちろん, 疑似相関を構築しないようにデータ収集方法を与えることができればベストだ. データが因果的な方法で収集される場合（つまり, 決定とその決定に使用されたデータの両方を記録する）, 疑似相関は回避され, 残る問題は統計的効率を達成するために十分な「カバレッジ」を保証することである.

プラグイン法でどれだけ達成できるか？

プラグイン法はモデルを推定し, 実モデルの代わりに推定されたモデルを用いて問題を解く方法である. $M=(\mathcal{S}, \mathcal{A}, P, r)$ を有限MDPとし, $\hat{M}=(\mathcal{S}, \mathcal{A}, \hat{P}, \hat{r})$ をその推定とする. この推定は様々な方法で生成できるが, 得られる結果の観点からは, 推定がどのように生成されるかは重要ではない.

ここでは, 割引係数 $0\leq\gamma<1$を用いた場合を考える. $\hat{v}^{\pi}$を$\hat{M}$の方策$\pi$の価値（$v^{\pi}$は$M$での方策の価値）とし, $\hat{v}^{\star}$を$\hat{M}$の最適価値とする. また, 同様に, $\hat{q}^\pi$と$\hat{q}^\star$を定義する. 他のすべての通常MDPに関連する量で, 現在は$\hat{M}$に関連する量ならば, “ハット”をつけて表記する. 例えば, $\hat{M}$でのメモリレス方策$\pi$の方策評価作用素には$\hat{T}_\pi$を使う (状態価値でも状態行動価値でも用いる). さらに, $\hat{T}$を$\hat{M}$でのベルマン最適作用素とする (同様に, 状態および状態行動価値の両方に使う).

以上を踏まえて, 収縮写像に関する一般的な結果から始める.

命題 (残差のバウンド):

$F:V \to V$をノルム付きベクトル空間$V$についての$\gamma$収縮作用素とし, $x\in V$を$F$の不動点とする. このとき, どの$y\in V$についても,

\[\begin{align} \| x - y \| \le \frac{\| Fy - y \|}{1-\gamma}\,. \label{eq:resbound} \end{align}\]

証明: 三角不等式より,

\[\| x- y \| \le \| Fx - Fy \| + \| F y - y \| \le \gamma \| x-y \| + \| Fy - y \|\,.\]

順番を変え, $| x-y |$ について解けば命題が得られる. $\qquad \blacksquare$

これは, 良いモデル推定が,（相対的に）良い価値推定を保証するということである.

命題 (価値推定の誤差):

$H_\gamma = 1 / (1 - \gamma)$とし, $M$での報酬は$[0, 1]$区間に収まるとする. このとき, どの方策$\pi$についても, 次が成立する.

\[\begin{align} \| v^\pi - \hat v^\pi \|_\infty & \le H_\gamma \left( \| r_\pi-\hat r_\pi\|_\infty + \gamma \| ( P_\pi - \hat P_\pi) v^\pi \|_\infty \right) \\ & \le H_\gamma \left( \| r-\hat r\|_\infty + \gamma H_\gamma \| P - \hat P\|_\infty \right)\,. \end{align}\]

また,

\[\begin{align} \| v^* - \hat v^* \|_\infty & \le H_\gamma \left( \| r-\hat r\|_\infty + \gamma \| (P - \hat P ) v^*\|_\infty \right) \\ & \le H_\gamma \left( \| r-\hat r\|_\infty + \gamma H_\gamma \| P - \hat P\|_\infty \right)\,. \end{align}\]

同様に,

\[\begin{align} \| q^\pi - \hat q^\pi \|_\infty & \le H_\gamma \left( \| r-\hat r\|_\infty + \gamma \| (P - \hat P ) v^\pi\|_\infty \right) \\ & \le H_\gamma \left( \| r-\hat r\|_\infty + \gamma H_\gamma \| P - \hat P\|_\infty \right)\,. \end{align}\]

および

\[\begin{align} \| q^* - \hat q^* \|_\infty & \le H_\gamma \left( \| r-\hat r\|_\infty + \gamma \| (P - \hat P)v^*\|_\infty \right) \label{eq:qsdiff1} \\ & \le H_\gamma \left( \| r-\hat r\|_\infty + \gamma H_\gamma \| P - \hat P\|_\infty \right)\,. \label{eq:qsdiff} \end{align}\]

一般に, 価値の推定では報酬よりも遷移確率の誤差に敏感であることに注意されたい. 特に, 遷移確率の誤差は, 報酬の誤差が最大でも$H_\gamma$倍であるのに対し、$H_\gamma^2$倍まで拡大することができる. また, これらのバウンドは, １行目のバウンドを使ったほうが, よりタイトな推定値が得られる場合があることにも注意しよう. これがどのように役に立つか, 後にいくつかの例で紹介していく.

証明: 表記の単純化のため, $\|\cdot\|_\infty$は$\| \cdot \|$として書く. ここで$\hat T_\pi$ は $\hat T_\pi v = \hat r_\pi + \gamma \hat P_\pi v$とし, $F = \hat T_\pi$とする. 式\eqref{eq:resbound}の残差バウンドより,

命題中の２つ目の不等式は, $v^\pi$を２つ目の項から分離し, $\| v^\pi \| \le H_\gamma$と, $r_\pi = M_\pi r$, $\hat r_\pi = M_\pi \hat r$, $P_\pi = M_\pi P$ and $\hat P_\pi = M_\pi \hat P$ そして最後に$M_\pi$ が nonexpansion であることを利用すればバウンドできる. 残りの不等式は全く同じ方法で得られるので省略する. $\qquad \blacksquare$

価値の誤差の大きさを定量化するには, 今示した結果で十分である. $\hat{M}$での最適な（または最適に近い）方策を見つけることによって生じる方策最適化誤差を定量化するためには, 6回目の講義の方策誤差バウンドを思い出してほしい.

補題 (方策誤差バウンド - I.): $\pi$ をメモリーレス方策とし、関数 $q:\mathcal{S}\times\mathcal{A} \to \mathbb{R}$ と $\epsilon\ge 0$ を考える。以下のことが成立する:

$\pi$ が次の意味で $\epsilon$-最適貪欲 だとする: $\sum_a \pi(a\vert s) q^*(s,a) \ge v^*(s)-\epsilon$ が各状態 $s\in \mathcal{S}$ について成立する。すると $\pi$ は $\epsilon/(1-\gamma)$-最適となる。つまり $v^\pi \ge v^* - \frac{\epsilon}{1-\gamma} \boldsymbol{1}\,.$
もし $\pi$ が $q$ について貪欲ならば、$\pi$ は $2\epsilon$-最適貪欲となる。ただし、$\epsilon= \|q-q^*\|_\infty$ である。つまり

\[v^\pi \ge v^* - \frac{2\|q-q^*\|_\infty}{1-\gamma} \boldsymbol{1}\,.\]

これより, 以下の結果が導かれる:

定理（方策最適化の誤差バウンド）: $M$と$\hat{M}$の報酬が$[0, 1]$の範囲に収まっているとする. 任意の$\varepsilon > 0$と, $\hat{M}$で$\varepsilon$-最適な方策$\pi$を考える (つまり, $\hat{v}^\pi \geq \hat{v}^\star - \varepsilon \boldsymbol{1}$). このとき, $\pi$は$M$で$\delta$-最適な方策であり$\delta$は以下を満たす:

\[\delta \leq (1 + 2\gamma)H_\gamma \varepsilon + 2 H^2_\gamma \left\{\|r - \hat{r}\|_\infty + \gamma \| (P - \hat{P})v^\star\|_\infty\right\}\,.\]

上の定理から, 最適化誤差は$H_\gamma$の定数倍まで, 報酬関数の誤差は$H_\gamma^2$まで, 遷移確率の誤差は最大で$H_\gamma^3$まで拡大することがわかる (遷移確率の誤差は$v^\star$の大きさに依存する).

証明: $\pi$ を定理中で述べられている方策としよう. 我々のゴールは, 方策誤差バウンドの最初の部分, つまり $\pi$ が $\varepsilon’>0$について$\varepsilon’$-最適貪欲.

まず,

\[M_\pi \hat q^\pi = \hat v^\pi \ge \hat v^* - \varepsilon \boldsymbol{1} = M \hat q^* - \varepsilon\boldsymbol{1} \ge M \hat q^\pi - \varepsilon \boldsymbol{1}\,.\]

$z$ を$M_\pi \hat q^\pi = M \hat q^\pi + z$とする. 上述した不等式から, $\| z \|_\infty \le \varepsilon$である. また,

\[\begin{align*} M_\pi q^* & = M_\pi \hat q^\pi + M_\pi (q^* - \hat q^\pi) \\ & = M \hat q^\pi + M_\pi(q^*-\hat q^\pi) + z \\ & = M q^* + M\hat q^\pi-M q^* + M_\pi(q^*-\hat q^\pi) + z \\ & \ge M q^* - (2\| \hat q^\pi - q^* \|+\varepsilon) \boldsymbol{1}\\ & = v^* - (2\| \hat q^\pi - q^* \|+\varepsilon) \boldsymbol{1}\,. \end{align*}\]

「方策誤差バウンドI.」のパート１より,

\[v^\pi \ge v^* - H_\gamma (2\| \hat q^\pi - q^* \|+\varepsilon) \boldsymbol{1}\,.\]

三角不等式と$\pi$についての仮定より,

\[\begin{align*} \| \hat q^\pi - q^* \|_\infty & \le \| \hat q^\pi - \hat q^* \|_\infty + \| \hat q^* - q^* \|_\infty \le \gamma \varepsilon + \| \hat q^* - q^* \|_\infty\,. \end{align*}\]

式. \eqref{eq:qsdiff1} から,

\[\begin{align*} \| q^* - \hat q^* \|_\infty & \le H_\gamma \left( \| r-\hat r\|_\infty + \gamma \| (P - \hat P) v^*\|_\infty \right)\,. \end{align*}\]

最後に, 不等式を変形すれば定理が得られる.

\[\begin{align*} \| v^*-v^\pi\|_\infty & \le H_\gamma (2\| \hat q^\pi - q^* \|+\varepsilon)\\ & \le H_\gamma \left\{2\gamma \varepsilon + 2 H_\gamma \left( \| r-\hat r\|_\infty + \gamma \| (P - \hat P) v^*\|_\infty \right)+\varepsilon\right\}\,. \qquad \qquad \qquad \qquad \blacksquare \end{align*}\]

モデルの近似誤差: テーブル形式の場合

いつものように, テーブル形式の場合を考えて, 簡単な基礎から始めていこう. この場合, 標本平均を使ったモデルの推定を考える. 表記を一般的にするため, 利用可能なデータを, 次のような形式で与えるとする. $i = 1, \dots, n$に対して, $E_i = (S_i, A_i, R_i, S_{i+1})$, $E_1, \dots, E_{i-1}$が与えられたときの$S_{i+1} \sim P_{A_i}(S_i)$, そして$\mathbb{E}[R_i|S_i, A_i, E_1,\dots, E_{i-1}]=r_{A_i}(S_i)$ . そして, 訪問回数を

\[N(s, a, s') = \sum^n_{i=1}\mathbb{I}(S_i = s, A_i = a, S_{i+1}=s')\]

として導入する. また, $N(s, a) = \sum_{s’} N(s, a, s’)$とし, $(s, a)$での訪問回数が正であるとき, 遷移確率の推定値を

\[\hat{P}_a(s, s') = \frac{N(s, a, s')}{N(s, a)}\]

とし, 報酬の推定値は

\[\hat(r)_a(s) = \frac{1}{N(s, a)}\sum^n_{i=1} \mathbb{I}(S_i = s, A_i = a) R_i\,.\]

とする. これらが常に存在することを保証するため, $\hat{P}_a(s)$は状態について一様な分布とし, $N(s, a)=0$ならば$\hat{r}_a(s) = 0$とする. これから見ていく結果の観点からすると, ここで選んだ特定の値は重要ではない.

ここで, 上術したデータが, 各状態-行動のペア $(s, a)$に対して, ある決定論的なカウント $(n(s, a))_{s, a}$を使って$N(s, a) = n(s, a)$となるような単純な場合を考える. 例えば, 生成モデル（シミュレータ）があり, 各状態-行動のペアに対して, そのモデルを用いて一定数の独立な遷移を生成できるとする. この場合, Hoeffdingの不等式を用いることができる.

具体的にみていこう. まず,

\[\beta(n,\zeta) = \sqrt{ \frac{\log\left(\frac{\mathrm{SA}}{\zeta}\right)}{2 n}}\]

を定義し, $R_i\in [0,1]$ より, Hoeffding の不等式は確率$1-2\zeta$で, 任意の$s,a$について,

\[\begin{align*} | \hat r_a(s) - r_a(s) | & \le \beta(n(s,a),\zeta)\,,\\ | \langle \hat P_a(s) - P_a(s), v^* \rangle | & \le H_\gamma \beta(n(s,a),\zeta)\,, \end{align*}\]

であるから, 確率$1-2\zeta$で,

\[\begin{align*} \| \hat r - r \|_{\infty} & \le \beta(n_{\min},\zeta)\,,\\ \| ( \hat P - P) v^* \|_\infty & \le H_\gamma \beta(n_{\min},\zeta) \,, \end{align*}\]

であり, ここで$n_{\min} = \min_{s,a} n(s,a)$である. 得られたバウンドを方策の準最適性のバウンドに適用すると, 確率 $1-\zeta$で,

\[\begin{align*} \delta \le (1+2\gamma) H_\gamma \varepsilon + 2 H_\gamma^2 (1+\gamma H_\gamma) \beta(n_{\min},\zeta) \,. \end{align*}\]

これは観測全体の数$n$を用いて書き直すこともできる. 最良の場合はすべての$(s,a)$について$n(s,a)=n_{\min}$の場合だ. このとき$n = \mathrm{SA} n_{\min}$であり, 上述のバウンドは

\[\begin{align*} \delta \le (1+2\gamma) H_\gamma \varepsilon + 2 H_\gamma^2 (1+\gamma H_\gamma) \sqrt{ \mathrm{SA} \frac{\log\left(\frac{\mathrm{SA}}{\zeta}\right)}{2 n}} \,. \end{align*}\]

ここから, 任意の準最適性のターゲット$\delta_{\text{trg}}$を得るためには, 観測の数$n$が以下を満たせば良いことがわかる.

\[n \ge \frac{8 H_\gamma^6 SA \log\left(\frac{\mathrm{SA}}{\zeta}\right)}{\delta_{\text{trg}}^2}\,,\]

よって, 推定したモデルでの最適方策は最高でも$\delta_{\text{trg}}$準最適になる. ここで示した結果とは違い, 後ですぐに見る結果では最適性はホライゾンに$H_\gamma^3$で依存する.

ノート

バッチ学習とオンライン学習の間

アプリケーションによっては, データ収集方法を限られた回数しか変更できないことがある. これは, バッチ学習とオンライン学習の中間に位置するシナリオである. オンライン学習の観点からは, これはデータ収集方法に対する制約がある中での学習に相当する. このような制約として広く研究されているのが, データ収集方法の切り替え回数である. 実はオンライン学習の効果を最大限に引き出すために必要な切り替え回数はごくわずかでよい. これは強化学習に限ったことではなく, 経験分布が真の分布に収束する速度が遅いために起こることである. パラメトリックな問題では, その速度は$O(1 / \sqrt{n})$のオーダーであり, ここで$n$は観測の数である. したがって, ある量についての推定値の「精度」を大きく変えるには, サンプルサイズを大きく増やす必要があり, つまり, データ収集方法にはほとんど変更を加えなくてよい. 言い換えれば, データ収集方法をどのように変更すべきかを決定するのに役立つ十分な新しい証拠を得る前に, データ収集方法を変更する理由はないのである. これは通常, サンプルサイズの合計を対数的に多く変更するだけで, オンライン手法の力をフルに発揮できることを意味する.

状態の情報にアクセスできないバッチRL

今回は簡単のために, 遷移中の状態が観測されることを前提に学習問題を記述した. しかし, これは現実的ではない場合がある (例えばPOMDPなど). 一つの「逃げ」は、履歴全体を状態として扱うことだ. 実際, 因果的に制御された確率過程では, 履歴は常にマルコフ状態として用いることができる. このため, 状態が観測されるという仮定は, 状態空間が軌跡の長さに応じて指数関数的になるものの, 制限的なものではない. このことは, 大きな状態空間を持つMDPにおける学習に問題を還元する. もちろん, プランニングの下界でさえ, 余分な構造がない場合, すべてのアルゴリズムが状態-行動空間の大きさに比例したサンプルサイズを必要とすることを教えてくれる. したがって, この場合に対処するためには, 関数近似のような余分な構造を加える必要がある. また, 例えば線形関数近似を用いる場合, データには状態（または状態-行動のペア）の特徴のみを記録すればよいことがわかる.

因果推論とバッチRL

バッチデータから（正確には特定の分布から抽出されたデータから）因果的な効果を学習できるかどうかは, 因果的推論のテーマである. バッチRLでは, 「効果」は方策の価値であり, 因果推論の言葉では多段階処理と呼ばれる. 本文の例にあるように, バッチRLでは, データの取り方に関する前提があるだけに, 識別可能性の問題は「想定外」として扱われる. しかし, データの生成・収集方法の仮定が満たされない場合でも, 因果推論のツールは有用である. 因果関係を仮定しない限り, 因果関係は存在しないことには気をつけなければならない. 因果推論ができるのは, データサンプリングの仮定が満たされていることが条件となる. 「因果関係の発見」であっても, これらの仮定が条件である. しかし, 注意すれば, ある適切な仮定が満たされることを検証できる場合が多く（例えば, プロセスのどの時点でどのような情報が得られるかに基づいて検証する）, その場合, 因果推論の非自明なツールは非常に有用である場合がある.

とはいえ, 特に大規模な人工システムにおいては, 重要な量を記録しないなどのミスは起こりうるが, 我々の標準的なデータ収集の仮定は妥当であり, その実現は可能である. この例として, ある動作がシステムの一部によって上書きされ, その動作が例えば後でオフにされる場合を考えよう. このように, 実際に行われたアクションを誰もログに残さないと, アクションの効果がわからなくなることは明らかである. 後述するように, バッチRLと因果推論の文献では, 「操作変数」, 「傾向スコア」など, いくつかの語彙を共有している.

プラグインと確実性等価

プラグインとは一般に, あるモデルを推定し, それが「真の」モデルであるかのように使用することを意味する. 制御では, この手法でコントローラ（方策）を導出すると, これを「確実性等価」コントローラと呼ぶ. 「確実性等価の原理」とは, 「ランダム」な誤差は無視してもよいというものだ. この原理は，様々な場面で最適制御器（最適方策）がこの原理を裏付けるような特殊な形をとるという経験に由来している. 特に, 線形二次ガウス制御においてこれは初めて見つかった. （線形二次ガウス制御では, 完全な状態情報の下での最適制御を解き, 最適な状態予測で完全状態情報に置き換えることで制御器を得る.）この厳密な最適化結果は, かなり脆い. 後ほど述べるように, ミニマックス最適性の観点からは, 確実性等価政策も悪くない選択である.

参考文献

初期のRLに関する文献では, オンライン学習が主流であった. 一方で, RLを様々な「産業」／「応用」環境に適用しようとしたとき, 学習開始前に収集したデータからどのように学習するかを考えなければならなくなったのである. このアジェンダを推し進めた最初の論文の一つが次の論文である.

Tree-Based Batch Mode Reinforcement Learning

Damien Ernst, Pierre Geurts, Louis Wehenkel; 6(18):503−556, 2005. 「バッチモードRL」については、もっと以前に言及がある:

Efficient Value Function Approximation Using Regression Trees (1999) by Xin Wang , Thomas G. Dietterich, Proceedings of the IJCAI Workshop on Statistical Machine Learning for Large-Scale Optimization. pdf

オンライン学習においても, 効率的な学習を行うためには, 学習に用いるデータを全て保存しなければならない場合がある. いわゆるLSTDアルゴリズムや, 後のLSPIアルゴリズムは, この課題を解決するために明示的に提案されたものである:

J. A. Boyan. Technical update: least-squares temporal difference learning. Machine Learning, 49 (2-3):233–246, 2002.
M. G. Lagoudakis and R. Parr. Least-squares policy iteration. Journal of Machine Learning Research, 4:1107–1149, 2003a.

オフポリシー学習とは, アルゴリズムがある方策の価値関数（または行動価値関数）の推定値を生成する必要があるが, 利用可能なデータが評価対象の方策によって生成されていない場合を指す. 上記のすべての例では, オフポリシー学習の設定になっている. したがって, 方策評価問題はしばしばオフポリシー方策評価（OPPE）問題と呼ばれ, 良い政策を見つける問題はオフポリシー方策最適化（OPPO）問題と呼ばれる.

2012年前後の文献のレビューについては、以下の論文を参照されたい。

S. Lange, T. Gabel, M. Riedmiller (2012) Batch Reinforcement Learning. In: M. Wiering, M. van Otterlo (eds) Reinforcement Learning. Adaptation, Learning, and Optimization, vol 12. Springer, Berlin, Heidelberg pdf