編者:牧野 貴樹[まきの・たかき]
編者:澁谷 長史[しぶや・たけし]
編者:白川 真一[しらかわ・しんいち]
著者:浅田 稔[あさだ・みのる]
著者:麻生 英樹[あそう・ひでき]
著者:荒井 幸代[あらい・さちよ]
著者:飯間 等 [いいま・ひとし]
著者:伊藤 真[いとう・まこと]
著者:大倉 和博[おおくら・かずひろ]
著者:黒江 康明[くろえ・やすあき]
著者:杉本 徳和[すぎもと・のりかず]
著者:坪井 祐太[つぼい・ゆうた]
著者:銅谷 賢治[どうや・けんじ]
著者:前田 新一[まえだ・しんいち]
著者:松井 藤五郎[まつい・とうごろう]
著者:南 泰浩[みなみ・やすひろ]
著者:宮崎 和光[みやざき・かずてる]
著者:目黒 豊美[めぐろ・とよみ]
著者:森村 哲郎[もりむら・てつろう]
著者:森本 淳[もりもと・じゅん]
著者:保田 俊行[やすだ・としゆき]
著者:吉本 潤一郎[よしもと・じゅんいちろう]
イラスト:北村 裕子[きたむら・ゆうこ] イラストレータ。(有)ケイデザイン。
件名:人工知能
件名:機械学習
件名:アルゴリズム
NDLC:M121 科学技術一般 >> サイバネティックス・情報理論
NDC:007.13 情報科学 >> 情報理論 >> 人工知能.パターン認識
【目次】
はじめに [i-ii]
目次 [iii]
執筆者一覧 [iv]
第1章 強化学習の基礎的理論
1.1 強化学習とは[牧野貴樹] 002
1.1.1 強化学習の考え方 002
1.1.2 多腕バンディット問題[multi-armed bandit problem] 006
1.1.3 greedyアルゴリズム 006
1.1.4 ε-greedyアルゴリズム 008
1.1.5 不確かなときは楽観的に 009
1.1.6 多腕バンディット問題の学習の例 011
1.1.7 おわりに 013
参考文献 013
1.2 強化学習の構成要素[澁谷長史・牧野貴樹] 014
1.2.1 強化学習の基本的枠組み 014
1.2.2 マルコフ決定過程による時間発展の記述 016
例:三目並べ
時間ステップとエピソード
1.2.3 良い方策とは何か? 021
1.2.4 良い方策をどのように求めるか? 027
1.3 価値反復に基づくアルゴリズム[澁谷長史・牧野貴樹] 029
1.3.1 価値関数の推定 029
1.3.2 ベルマン方程式の導出 030
1.3.3 Sarsa[State–action–reward–state–action] 033
1.3.4 ベルマン最適方程式 036
1.3.5 Q-learning 037
1.3.6 方策の獲得と価値反復法 038
1.3.7 おわりに 041
参考文献 041
1.4 方策勾配に基づくアルゴリズム[白川真一,森村哲郎] 042
1.4.1 概要 042
ゴルフ問題
1.4.2 アルゴリズムの枠組み 047
確率的方策による行動
方策の評価
方策の更新
勾配の近似
自然勾配法
1.4.3 具体的なアルゴリズム例 052
REINFORCEアルゴリズム
方策勾配法
自然方策勾配法
1.4.4 おわりに 054
参考文献 054
1.5 部分観測マルコフ決定過程と強化学習[澁谷長史] 056
1.5.1 部分観測マルコフ決定過程[POMDP] 056
部分観測マルコフ決定過程の定義
POMDPの応用事例
1.5.2 解法 057
解法の分類
信念状態
1.5.3 モデルベースドな手法 060
belief MDP上の価値関数の表現
exact value iteration
Point-Based Value Iteration
Point-Based Policy Iteration
関連するモデルや表現
1.5.4 モデルフリーな手法 066
ブラックボックスなシミュレータを用いる手法
楽観的価値反復を用いる手法
価値の表現を工夫する手法
参考文献 067
第2章 強化学習の発展的理論
2.1 統計学習の観点から見たTD学習[前田新一] 072
2.1.1 強化学習と教師付き学習の学習側 072
2.1.2 関数近似をしない場合の評価関数の推定 075
サンプルに基づくベルマンオペレーターの近似
2.1.3 関数近似をする場合の評価関数の推定 079
関数近似を用いたTD法,Q学習,Sarsa
関数近似を用いたTD法
関数近似を用いたTD(λ)法
関数近似を用いたSarsa
関数近似を用いたQ学習
勾配TD法(gradient temporal difference learning),最小二乗法
TD学習のパラメータ更新量の最小化
ベルマン残差の二乗の最小化
・BRM法,RG法
TD残差の二乗の最小化
(1) 操作変数法
(2) LSTD法
(3) R-LSTD法
(4) 方策オフ型のLSTD法
(5) LSTD(λ)法
(6) iLSTD法
射影Bellman残差の二乗の最小化による状態評価関数の推定
・GTD2法,TDC法[Temporal-Difference learning with gradient Correction]
・LSPE法[Least-Squares Policy Evaluation]
射影ベルマン残差の二乗の最小化による行動価値関数の推定
・LSPI法[Least-Squares Policy Iteration]
・GQ法
fitted Qによる行動価値関数の推定
2.1.4 セミパラメトリック統計学習に基づく定式化 100
セミパラメトリックモデルと推定関数
2.1.5 推定関数に基づく方策評価の理論解析 103
マルチンゲール推定関数となりうる関数クラス
最適な推定精度を実現する推定関数
2.1.6 既存手法との関係 107
2.1.7 おわりに 109
参考文献 109
2.2 強化学習アルゴリズムの理論性能解析とベイズ統計による強化学習のモデル化[牧野貴樹] 112
2.2.1 多腕バンディット問題 112
ε-greedy方策
UCBアルゴリズム
Thompsonサンプリング
その他のバンディット問題
2.2.2 強化学習における探索コスト最小化 115
楽観的初期評価法
サンプル複雑性[Sample Complexity]:モデルベース手法
サンプル複雑性:モデルフリー手法
リグレット[regret]上昇
2.2.3 ベイズ主義的アプローチ 118
ベイズ適応的MDP[BAMDP:Bayes-Adaptive Deep Model-Based Policy Optimisation]
共役分布表現を直接利用する方法
環境モデルのサンプリングに基づく手法
モンテカルロ木探索法
ベイジアン強化学習の限界
2.2.4 おわりに 123
参考文献 124
2.3 逆強化学習(Inverse Reinforcement Learning)[荒井幸代] 127
2.3.1 報酬設計問題 127
2.3.2 Ngの逆強化学習法:有限状態空間を対象とする場合 128
2.3.3 Abbeelの逆強化学習法:projection法 128
2.3.4 大規模計画問題への適用 129
報酬関数の評価:学習効率
逆強化学習の制約条件の緩和
計算機実験
実験結果
得られた報酬関数の考察
2.3.5 計算量の考察 134
2.3.6 まとめ 134
参考文献 135
2.4 試行錯誤回数の低減を指向した手法:経験強化型学習XoL[宮崎和光] 136
2.4.1 経験強化型学習XoL 137
2.4.2 1種類の報酬に対応したXoL手法 137
Profit Sharingの合理性定理
合理的政策形成アルゴリズムおよびその発展形
2.4.3 報酬および罰に対応したXoL手法 139
罰回避政策形成アルゴリズム
改良型罰回避政策形成アルゴリズム
2.4.4 連続値で与えれる感覚入力への対応 141
2.4.5 XoLの応用例 142
NIOD-QEにおける科目分類支援システムへの適用
腱駆動型2足歩行ロボットの腰軌道学習への応用
2.4.6 XoLの発展性 144
ハイブリッド手法
深層学習の活用
2.4.7 おわりに 146
参考文献 147
2.5 群強化学習法[黒江康明・飯間等] 148
2.5.1 基本的な考え方とアルゴリズム 148
2.5.2 各学習世界の学習法 150
2.5.3 各学習世界の評価法 151
2.5.4 学習世界間の情報交換法 152
A. 最良値で更新する方法
B. 最良値との平均値をとる方法
C. Particle Awarm Optimizationに基づく方法
D. アントコロニー最適化に基づく方法
2.5.5 連続状態行動空間学習問題への展開 155
2.5.6 マルチエージェント学習問題への展開 159
マルチエージェント群強化学習法
ジレンマ問題の解法
フォーメーション形成問題の解法
2.5.7 おわりに 163
参考文献 164
2.6 リスク考慮型強化学習[森村哲郎] 165
2.6.1 強化学習の復習 165
マルコフ決定過程
強化学習の定式化
2.6.2 リスク考慮型強化学習 168
(i) ある種の最悪ケースを評価するアプローチ
(ii) 効用関数や時間差分誤差を非線形化するアプローチ
(iii) リターン以外のリスク指標を導入するアプローチ
2.6.3 リスク考慮型強化学習のためのリターン分布推定 172
シミュレーション・アプローチ
解析的アプローチ
分布ベルマン方程式
ノンパラメトリックなリターン分布推定
2.6.4 おわりに 176
参考文献 176
2.7 複利型強化学習[松井藤五郎] 177
2.7.1 利益の複利効果と投資比率 177
2.7.2 複利型強化学習の枠組み 179
2.7.3 複利型強化学習アルゴリズム 181
複利型Q学習
複利型OnPS
2.7.4 投資比率の最適化 184
2.7.5 ファイナンスへの応用例:国債銘柄選択 184
2.7.6 おわりに 186
参考文献 186
第3章 強化学習の工学応用
3.1 高次元・実環境における強化学習[森本淳,杉本徳和] 190
3.1.1 最適制御問題 190
3.1.2 時間逆方向の価値関数の伝搬に基づく運動学習 191
軌道まわりの価値関数モデルの学習
実装事例
3.1.3 時間順方向の内部シミュレーション計算を用いた運動学習 193
内部シミュレーションモデルの学習
実装事例
3.1.4 おわりに 196
謝辞 197
参考文献 197
3.2 連続的な状態・行動空間への拡張:マルチロボットシステムへの適用[保田俊行,大倉和博] 199
3.2.1 マルチロボット強化学習 200
利点と課題
研究例
3.2.2 頑健なMRSのための強化学習法 201
自律的機能分化
ベイズ判定法に基づく強化学習法・BRI
ルール構成
動作選択
有効度の更新
パラメータの更新
3.2.3 適用例:均質なMRSの協調行動獲得 204
アーム型ロボットの協調荷上げタスク
実験設定
大域的秩序獲得実験:実験1
学習履歴
状態空間の構成
獲得した振る舞いの観測
システムの頑健性の検証実験:実験2
学習履歴
獲得した振る舞いの観測
移動ロボットの協調搬送
人間機械協調系への応用
3.2.4 おわりに 211
参考文献 212
3.3 対話処理における強化学習[南泰浩,目黒豊美] 214
3.3.1 認識誤りに頑健な強化学習による対話制御 215
3.3.2 状態設定 218
3.3.3 増大する状態設定への対処 219
3.3.4 非タスク志向型対話システム 221
3.3.5 おわりに 223
参考文献 224
3.4 マルチエージェント系の報酬設計[荒井幸代] 225
3.4.1 関連研究 225
3.4.2 マルチエージェント系への拡張 226
3.4.3 複数の均衡点が存在するマルコフゲームへの応用 227
エージェントモデル
Ngの逆強化学習の適用
状態遷移確率の推定
実験と考察
m人エージェントへの拡張
3.4.4 231
マルチエージェント倉庫番
予備実験
の影響:
の影響:
Abbeel の逆強化学習の適用
実験と考察
実験結果
3.4.5 おわりに 236
参考文献 236
3.5 自然言語処理における逆強化学習・模倣学習の適用[坪井祐太,牧野貴樹] 237
3.5.1 自然言語処理タスクでの決定過程 240
3.5.2 逆強化学習による自然言語処理 242
3.5.3 模倣学習による自然言語処理 244
3.5.4 おわりに 246
参考文献 247
3.6 医療臨床データ分析への応用[麻生英樹] 249
3.6.1 確率モデルの医療過程への適用 250
3.6.2 生体肝移植のタイミング最適化 251
3.6.3 虚血性心疾患の治療過程モデル 252
3.6.4 分析による課題 253
3.6.5 おわりに 255
参考文献 255
3.7 深層学習を用いたQ関数の学習:Atari 2600と囲碁への応用[前田新一] 257
3.7.1 Deep Q-Network(DQN)によるAtari 2600のゲームの学習 257
3.7.2 DQNのネットワーク構造 258
畳み込みニューラルネットワーク
中間層のユニットの共存
3.7.3 DQNの学習アルゴリズム 260
学習則の安定化のためのターゲットの固定化
学習に用いるサンプルの偏りの抑制(体験再生)
その他の実装
学習結果
その後の進展
double Q-learninng
優先順位付き体験再生(prioritized experience replay)
3.7.4 AlphaGoによる囲碁の学習 265
AlphaGoが出現するまでのコンピュータ囲碁の歴史
AlphaGoの登場
AlphaGoによる着手の選択
Selection
Expansion
Evaluation
Backup
AlphaGoの学習法
探索展開用方策p_π(a|s) の教師付き学習方策ネットワークp_σ(a|s) の学習
強化学習用方策ネットワークp_ρ(a|s) の学習
状態価値ネットワーク v(s) の学習
AlphaGoの学習後の性能比較
3.7.5 おわりに 278
参考文献 279
第4章 知能のモデルとしての強化学習
4.1 脳の意思決定機構と強化学習[吉本潤一郎,伊藤真,銅谷賢治] 284
4.1.1 行動生理学と強化学習 284
4.1.2 報酬予測とドーパミン 286
4.1.3 価値関数と線条体ニューロン 287
4.1.4 大脳基底核の強化学習モデル 289
4.1.5 メタ学習と神経修飾物質 291
4.1.6 おわりに 293
参考文献 293
4.2 内発的動機付けによるエージェントの学習と発達[浅田稔] 295
4.2.1 ロボカップドメインでの強化学習 296
4.2.2 認知発達ロボティクスのアプローチ 297
4.2.3 心理学的視点からのIM[Intrinsic Motivation] 299
それ自身のために探究する活動
能動的に内発的動機付けするものは何か?
4.2.4 IMの神経科学的基盤 300
上丘・ドーパミン・大脳基底核
海馬・ドーパミン系
神経修飾物質:ノルアドレナリン,アセチルコリン
4.2.5 IMの計算モデル 301
知識ベースのIMモデル
能力ベースのIMモデル
形態学的IMモデル
4.2.6 IMと社会性との関連 305
4.2.7 おわりに 306
参考文献 307
おわりに(編者) [309-310]
索引 [311-313]
【メモランダム】
・版元の執筆者一覧だと、学位と当時の役職・肩書・所属が置かれていた。
[編著]
グーグル株式会社 博(理) 牧野 貴樹
筑波大学助教 博(工) 澁谷 長史
横浜国立大学講師 博(工) 白川 真一
[著者]
大阪大学教授 工博 浅田 稔
産業技術総合研究所 麻生 英樹
千葉大学教授 博士(工学) 荒井 幸代
京都工芸繊維大学准教授 博(工) 飯間 等
沖縄科学技術大学院大学 博(情報科学) 伊藤 真
広島大学教授 博(工) 大倉 和博
京都工芸繊維大学教授 学術博士 黒江 康明
情報通信研究機構 博(工) 杉本 徳和
日本IBM東京基礎研究所 博(工) 坪井 祐太
沖縄科学技術大学院大学教授 博(工) 銅谷 賢治
株式会社Preferred Networks 博(理) 前田新一
中部大学准教授 博(工) 松井 藤五郎
電気通信大学教授 工博 南 泰浩
独立行政法人大学改革支援・学位授与機構准教授 博(工) 宮崎 和光
NTTコミュニケーション科学基礎研究所 目黒 豊美
日本IBM東京基礎研究所 博(工) 森村 哲郎
ATR脳情報研究所 博(工) 森本 淳
富山大学准教授 博(工) 保田俊行
奈良先端科学技術大学院大学准教授 博(工) 吉本 潤一郎
・『人工知能学会誌』(Vol. 32 No. 2) 2017.03に、大原剛三による本書の紹介が掲載された。
https://www.jstage.jst.go.jp/article/jjsai/32/2/32_323/_article/-char/ja/
・長めの書評は(軽く探しただけでは)見つからない。