訳語

翻訳するにあたって、すでに訳が存在する場合は出来るだけそれに従ったが、訳が存在しない場合には独自の訳を用いている。ここでは、訳語をまとめている。 (訳語が抜けている、または追加してほしい場合は、小津野まで連絡してください)

あ

エフェクティブホライゾン (effective horizon): 最適方策を見つけたいときに、ある程度の誤差を許容する場合、有限時刻までで打ち切ったリターンを最大化するだけで充分となる。この有限時刻をエフェクティブホライゾンという。実際の論文では、 $1 / (1-\gamma)$ を指すことも多い。

価値反復 (value iteration, VI): MDPを解くためのアルゴリズムの一つ。
軌道 (trajectory): 初期時刻から始まる、状態行動のペアの系列。導入を参照。
近似率・精度 (accuracy): 最適価値関数 $v^*$ と実際に求める価値関数 $v^H$ との差 $v^* - V^H$ がある $\delta$ でおさえられる、つまり$v^* - V^H < \delta$であるとき、これを近似率と呼ぶ。基本的に絶対誤差か相対誤差かどちらかのことだと思えばいい。価値反復法を参照。

作用素 (operator): ベクトルからベクトルへの関数 $F: \mathbb{R}^N \rightarrow \mathbb{R}^M$ のこと。$Fv$ ($v$はベクトル)のように書く。状態空間が有限なら、これは行列とベクトルのかけ算だと思っていい。
指数的に (at a geometric rate): ある値 (例えば反復回数$k$)に対し指数的に誤差が減少する場合など。
実現可能性 (realizability): $Q^*$実現可能性・$V^*$実現可能性などの形で使う。ある特徴量マップが最適価値関数$Q^*\cdot V^*$を表現できることを示す。
縮小/縮小作用素 (contraction): 作用素$F$で、必ず $v \geq Fv$ であるようなもの。
初期状態分布 (initial state distribution): 初期状態の分布。導入を参照。
正則確率空間 (canonical probability space): 導入の軌道の分布に関するセクションを参照。
絶対誤差 (additive error): 相対誤差 (relative error)との対比。価値反復法を参照。
像測度 (pushforward measure): $X$ の測度をもとに可測写像 $f:X \to Y$ によって構成される $Y$ 上の測度。厳密には測度空間 $(X, \mathcal{M}, \mu)$ と可測空間 $(Y, \mathcal{N})$ および可測写像 $f:X \to Y$ が与えられた際の $(Y, \mathcal{N})$ 上の測度 $\mathcal{N} \ni E \mapsto \mu(f^{-1}(E))$のこと。

方策 (policy): 行動を選択するために用いられる。導入を参照。
方策反復 (policy iteration, PI): MDPを解くためのアルゴリズムの一つ。
- 近似方策反復 (approximate policy iteration, API): 方策反復を近似的に行うアルゴリズム。
ポリシーサーチ (policy search): TODO

マルコフ決定過程 (Markov Decision Process, MDP): 逐次意思決定問題を数学的にモデル化するためのもの。導入を参照。
- 割引 MDP: リターンを目的関数とする MDP (問題設定)。導入を参照。
- 無限時間 MDP: 環境とエージェントの相互作用が永遠に続くような MDP (問題設定)。導入を参照。
- 有限時間 MDP: 環境とエージェントの相互作用が有限の時間で打ち切らる MDP (問題設定)。導入を参照。

楽観的探索 (optimism): 環境の探索を行う場合に、価値が不確かな状態 (または状態行動ペア) の価値を高く見積もって、そういった価値の高いところを重点的に探索する方法。

割引報酬和の期待値 (discounted total expected reward): 将来の報酬を割引率の累乗で重み付けし足し合わせたものの期待値。リターンともいう。導入を参照。