『速習強化学習――基礎理論とアルゴリズム』(Csaba Szepesvári[著] 小山田創哲ほか[訳] 共立出版 2017//2010)

原題：Algorithms for Reinforcement Learning, Second Edition (Morgan & Claypool)
著者：Csaba Szepesvári　数学。
訳者代表・編集：小山田創哲［こやまだ・そうてつ］
監訳：前田新一［まえだ・しんいち］
監訳：小山雅典［こやま・まさのり］
訳者：池田春之介
訳者：大渡勝己
訳者：芝慎太朗
訳者：関根嵩之
訳者：高山晃一
訳者：田中一樹
訳者：西村直樹
訳者：藤田康博
訳者：望月駿一
NDLC：M121
NDC：007.13　情報学．情報科学 >> 人工知能．パターン認識
件名：機械学習

速習強化学習 - 共立出版
 GitHub - rl-tokyo/szepesvari-book: 「速習強化学習－基礎理論とアルゴリズム－」サポートページ

速習強化学習 ―基礎理論とアルゴリズム―

作者:Csaba Szepesvari
共立出版

Amazon

【目次】
まえがき（2017年7月　前田新一・小山雅典・小山田創哲）　[iii-iv]
目次　[v-vii]

第1章　マルコフ決定過程　001
1.1　本書の表記と前提とする知識
1.2　マルコフ決定過程
1.3　価値関数
1.4　MDPを解くための動的計画法

第2章　価値推定問題　013
2.1　有限な状態空間でのTD学習
　　2.1.1　テーブルTD(0)法
　　2.1.2　逐一訪問モンテカルロ法
　　2.1.3　TD(λ)法: モンテカルロ法とTD(0)法の統一
2.2　大規模状態空間でのアルゴリズム
　　2.2.1　関数近似を用いたTD(λ)法
　　2.2.2　勾配TD学習 (gradient temporal difference learning)
　　2.2.3　最小二乗法
　　2.2.4　関数空間の選択

第3章　制御　045
3.1　学習問題一覧
3.2　閉ループでの対話型学習
　　3.2.1　バンディット問題における探索活用並行学習
　　3.2.2　バンディット問題における純粋探索学習
　　3.2.3　マルコフ決定過程における純粋探索学習
　　3.2.4　マルコフ決定過程における探索活用並行学習
3.3　直接法
　　3.3.1　有限MDPにおけるQ学習
　　3.3.2　関数近似器を用いたQ学習
3.4　Actor-critic法
　　3.4.1　Criticの実装
　　3.4.2　Actorの実装

第4章　さらなる勉強のために　075
4.1　参考文献
4.2　応用
4.3　ソフトウェア
4.4　謝辞

付録A　割引マルコフ決定過程の理論　079
A.1　縮小写像とバナッハの不動点定理
A.2　MDPへの適用

付録B　TD(λ)法の前方観測的な見方と後方観測的な見方について　089

付録C　深層強化学習を含む最近の発展　093
C.1　深層強化学習のための深層学習
　　C.1.1　ニューラルネットワークを用いた関数近似
　　C.1.2　CNN (convolutional neural network)
C.2　価値反復に基づく強化学習アルゴリズムにおける発展
　　C.2.1　DQN (deep Q-network)
　　C.2.2　Double DQN
　　C.2.3　デュエリングネットワーク (dueling network)
(dueling network)
　　C.2.4　優先順位付き経験再生 (prioritized experience replay)
C.3　方策反復に基づく強化学習アルゴリズムにおける発展
　　C.3.1　A3C (asynchronous advantage actor-critic)
　　C.3.2　TRPO (trust region policy optimization)
　　C.3.3　GAE (generalized advantage estimator)
C.4　深層強化学習の囲碁AIへの応用: AlphaGo
　　C.4.1　強化学習問題としての囲碁
　　C.4.2　深層ニューラルネットワークの学習
　　C.4.3　深層ニューラルネットワークを使ったモンテカルロ木探索法による着手の選択
C.5　おわりに