contents memorandum はてな

目次とメモを置いとく場

『これからの強化学習』(牧野貴樹,澁谷長史,白川真一[編] 森北出版 2016)

編者:牧野 貴樹[まきの・たかき]
編者:澁谷 長史[しぶや・たけし]
編者:白川 真一[しらかわ・しんいち]
著者:浅田 稔[あさだ・みのる]
著者:麻生 英樹[あそう・ひでき]
著者:荒井 幸代[あらい・さちよ]
著者:飯間 等 [いいま・ひとし]
著者:伊藤 真[いとう・まこと]
著者:大倉 和博[おおくら・かずひろ]
著者:黒江 康明[くろえ・やすあき]
著者:杉本 徳和[すぎもと・のりかず]
著者:坪井 祐太[つぼい・ゆうた]
著者:銅谷 賢治[どうや・けんじ]
著者:前田 新一[まえだ・しんいち]
著者:松井 藤五郎[まつい・とうごろう]
著者:南 泰浩[みなみ・やすひろ]
著者:宮崎 和光[みやざき・かずてる]
著者:目黒 豊美[めぐろ・とよみ]
著者:森村 哲郎[もりむら・てつろう]
著者:森本 淳[もりもと・じゅん]
著者:保田 俊行[やすだ・としゆき]
著者:吉本 潤一郎[よしもと・じゅんいちろう]
イラスト:北村 裕子[きたむら・ゆうこ] イラストレータ(有)ケイデザイン
NDLC:M121 科学技術一般 >> サイバネティックス情報理論
NDC:007.13 情報科学 >> 情報理論 >> 人工知能パターン認識
件名:人工知能
件名:機械学習  
件名:アルゴリズム


これからの強化学習|森北出版株式会社


【簡易目次】
第1章 強化学習の基礎的理論
1.1 強化学習とは 002
1.2 強化学習の構成要素 014
1.3 価値反復に基づくアルゴリズム 029
1.4 方策勾配に基づくアルゴリズム 042
1.5 部分観測マルコフ決定過程強化学習 056


第2章 強化学習の発展的理論
2.1 統計学習の観点から見たTD学習 072
2.2 強化学習アルゴリズムの理論性能解析とベイズ統計による強化学習のモデル化 112
2.3 逆強化学習(Inverse Reinforcement Learning)[荒井幸代] 127
2.4 試行錯誤回数の低減を指向した手法:経験強化型学習XoL 136
2.5 群強化学習法 148
2.6 リスク考慮型強化学習 165
2.7 複利強化学習 177


第3章 強化学習の工学応用
3.1 高次元・実環境における強化学習 190
3.2 連続的な状態・行動空間への拡張:マルチロボットシステムへの適用 199
3.3 対話処理における強化学習 214
3.4 マルチエージェント系の報酬設計 225
3.5 自然言語処理における逆強化学習・模倣学習の適用 237
3.6 医療臨床データ分析への応用 249
3.7 深層学習を用いたQ関数の学習:Atari囲碁への応用 257


第4章 知能のモデルとしての強化学習
4.1 脳の意思決定機構と強化学習 284
4.2 内発的動機付けによるエージェントの学習と発達 295



【目次】
はじめに [i-ii]
目次 [iii]
執筆者一覧 [iv]


第1章 強化学習の基礎的理論
1.1 強化学習とは[牧野貴樹] 002
  1.1.1 強化学習の考え方 002
  1.1.2 多腕バンディット問題[multi-armed bandit problem] 006
  1.1.3 greedyアルゴリズム 006
  1.1.4 ε-greedyアルゴリズム 008
  1.1.5 不確かなときは楽観的に 009
  1.1.6 多腕バンディット問題の学習の例 011
  1.1.7 おわりに 013
  参考文献 013


1.2 強化学習の構成要素[澁谷長史・牧野貴樹] 014
  1.2.1 強化学習の基本的枠組み 014
  1.2.2 マルコフ決定過程による時間発展の記述 016
    例:三目並べ
    時間ステップとエピソード
  1.2.3 良い方策とは何か? 021
  1.2.4 良い方策をどのように求めるか? 027


1.3 価値反復に基づくアルゴリズム[澁谷長史・牧野貴樹] 029
  1.3.1 価値関数の推定 029
  1.3.2 ベルマン方程式の導出 030
  1.3.3 Sarsa[State–action–reward–state–action] 033
  1.3.4 ベルマン最適方程式 036
  1.3.5 Q-learning 037
  1.3.6 方策の獲得と価値反復法 038
  1.3.7 おわりに 041
  参考文献 041


1.4 方策勾配に基づくアルゴリズム[白川真一,森村哲郎] 042
  1.4.1 概要 042
    ゴルフ問題
  1.4.2 アルゴリズムの枠組み 047
    確率的方策による行動
    方策π_θの評価
    方策π_θの更新
    勾配の近似
    自然勾配法
  1.4.3 具体的なアルゴリズム例 052
    REINFORCEアルゴリズム
    方策勾配法
    自然方策勾配法
  1.4.4 おわりに 054
  参考文献 054


1.5 部分観測マルコフ決定過程強化学習[澁谷長史] 056
  1.5.1 部分観測マルコフ決定過程POMDP] 056
    部分観測マルコフ決定過程の定義
    POMDPの応用事例
  1.5.2 解法 057
    解法の分類
    信念状態
  1.5.3 モデルベースドな手法 060
    belief MDP上の価値関数の表現
    exact value iteration
    Point-Based Value Iteration
    Point-Based Policy Iteration
    関連するモデルや表現
  1.5.4 モデルフリーな手法 066
    ブラックボックスなシミュレータを用いる手法
    楽観的価値反復を用いる手法
    価値の表現を工夫する手法
  参考文献 067


第2章 強化学習の発展的理論
2.1 統計学習の観点から見たTD学習[前田新一] 072
  2.1.1 強化学習と教師付き学習の学習側 072
  2.1.2 関数近似をしない場合の評価関数の推定 075
    サンプルに基づくベルマンオペレーターの近似
  2.1.3 関数近似をする場合の評価関数の推定 079
    関数近似を用いたTD法,Q学習,Sarsa
      関数近似を用いたTD法
      関数近似を用いたTD(λ)法
      関数近似を用いたSarsa
      関数近似を用いたQ学習
    勾配TD法(gradient temporal difference learning),最小二乗法
      TD学習のパラメータ更新量の最小化
      ベルマン残差の二乗の最小化
        ・BRM法,RG法
      TD残差の二乗の最小化
      (1) 操作変数法
      (2) LSTD法
      (3) R-LSTD法
      (4) 方策オフ型のLSTD法
      (5) LSTD(λ)法
      (6) iLSTD法
      射影Bellman残差の二乗の最小化による状態評価関数の推定
        ・GTD2法,TDC法[Temporal-Difference learning with gradient Correction
        ・LSPE法[Least-Squares Policy Evaluation]
      射影ベルマン残差の二乗の最小化による行動価値関数の推定
        ・LSPI法[Least-Squares Policy Iteration]
        ・GQ法
      fitted Qによる行動価値関数の推定
  2.1.4 セミパラメトリック統計学習に基づく定式化 100
    セミパラメトリックモデルと推定関数
  2.1.5 推定関数に基づく方策評価の理論解析 103
    マルチンゲール推定関数となりうる関数クラス
    最適な推定精度を実現する推定関数
  2.1.6 既存手法との関係 107
  2.1.7 おわりに 109
  参考文献 109


2.2 強化学習アルゴリズムの理論性能解析とベイズ統計による強化学習のモデル化[牧野貴樹] 112
  2.2.1 多腕バンディット問題 112
    ε-greedy方策
    UCBアルゴリズム
    Thompsonサンプリング
    その他のバンディット問題
  2.2.2 強化学習における探索コスト最小化 115
    楽観的初期評価法
    サンプル複雑性[Sample Complexity]:モデルベース手法
    サンプル複雑性:モデルフリー手法
    リグレット[regret]上昇
  2.2.3 ベイズ主義的アプローチ 118
    ベイズ適応的MDP[BAMDP:Bayes-Adaptive Deep Model-Based Policy Optimisation]
    共役分布表現を直接利用する方法
    環境モデルのサンプリングに基づく手法
    モンテカルロ木探索法
    ベイジアン強化学習の限界
  2.2.4 おわりに 123
  参考文献 124


2.3 逆強化学習(Inverse Reinforcement Learning)[荒井幸代] 127
  2.3.1 報酬設計問題 127
  2.3.2 Ngの逆強化学習法:有限状態空間を対象とする場合 128
  2.3.3 Abbeelの逆強化学習法:projection法 128
  2.3.4 大規模計画問題への適用 129
    報酬関数の評価:学習効率
    逆強化学習の制約条件の緩和
      計算機実験
      実験結果
      得られた報酬関数の考察
  2.3.5 計算量の考察 134
  2.3.6 まとめ 134
  参考文献 135 


2.4 試行錯誤回数の低減を指向した手法:経験強化型学習XoL[宮崎和光] 136
  2.4.1 経験強化型学習XoL 137
  2.4.2 1種類の報酬に対応したXoL手法 137
    Profit Sharingの合理性定理
    合理的政策形成アルゴリズムおよびその発展形
  2.4.3 報酬および罰に対応したXoL手法 139
    罰回避政策形成アルゴリズム
    改良型罰回避政策形成アルゴリズム
  2.4.4 連続値で与えれる感覚入力への対応 141
  2.4.5 XoLの応用例 142
    NIOD-QEにおける科目分類支援システムへの適用
      腱駆動型2足歩行ロボットの腰軌道学習への応用
  2.4.6 XoLの発展性 144
    ハイブリッド手法
    深層学習の活用
  2.4.7 おわりに 146
  参考文献 147


2.5 群強化学習法[黒江康明・飯間等] 148
  2.5.1 基本的な考え方とアルゴリズム 148
  2.5.2 各学習世界の学習法 150
  2.5.3 各学習世界の評価法 151
  2.5.4 学習世界間の情報交換法 152
    A. 最良値で更新する方法
    B. 最良値との平均値をとる方法
    C. Particle Awarm Optimizationに基づく方法
    D. アントコロニー最適化に基づく方法
  2.5.5 連続状態行動空間学習問題への展開 155
  2.5.6 マルチエージェント学習問題への展開 159
    マルチエージェント群強化学習
    ジレンマ問題の解法
    フォーメーション形成問題の解法
  2.5.7 おわりに 163
  参考文献 164


2.6 リスク考慮型強化学習[森村哲郎] 165
  2.6.1 強化学習の復習 165
    マルコフ決定過程
    強化学習の定式化
  2.6.2 リスク考慮型強化学習 168
    (i) ある種の最悪ケースを評価するアプローチ
    (ii) 効用関数や時間差分誤差を非線形化するアプローチ
    (iii) リターン以外のリスク指標を導入するアプローチ
  2.6.3 リスク考慮型強化学習のためのリターン分布推定 172
    シミュレーション・アプローチ
    解析的アプローチ
      分布ベルマン方程式
      ノンパラメトリックなリターン分布推定
  2.6.4 おわりに 176
  参考文献 176


2.7 複利強化学習[松井藤五郎] 177
  2.7.1 利益の複利効果と投資比率 177
  2.7.2 複利強化学習の枠組み 179
  2.7.3 複利強化学習アルゴリズム 181
    複利型Q学習
    複利型OnPS
  2.7.4 投資比率の最適化 184
  2.7.5 ファイナンスへの応用例:国債銘柄選択 184
  2.7.6 おわりに 186
  参考文献 186


第3章 強化学習の工学応用

3.1 高次元・実環境における強化学習[森本淳,杉本徳和] 190
  3.1.1 最適制御問題 190
  3.1.2 時間逆方向の価値関数の伝搬に基づく運動学習 191
    軌道まわりの価値関数モデルの学習
    実装事例
  3.1.3 時間順方向の内部シミュレーション計算を用いた運動学習 193
    内部シミュレーションモデルの学習
    実装事例
  3.1.4 おわりに 196
  謝辞 197
  参考文献 197


3.2 連続的な状態・行動空間への拡張:マルチロボットシステムへの適用[保田俊行,大倉和博] 199
  3.2.1 マルチロボット強化学習 200
    利点と課題
    研究例
  3.2.2 頑健なMRSのための強化学習法 201
    自律的機能分化
    ベイズ判定法に基づく強化学習法・BRI
      ルール構成
      動作選択
      有効度の更新
      パラメータの更新
  3.2.3 適用例:均質なMRSの協調行動獲得 204
    アーム型ロボットの協調荷上げタスク
      実験設定
    大域的秩序獲得実験:実験1
      学習履歴
      状態空間の構成
      獲得した振る舞いの観測
    システムの頑健性の検証実験:実験2
      学習履歴
      獲得した振る舞いの観測
    移動ロボットの協調搬送
    人間機械協調系への応用
  3.2.4 おわりに 211
  参考文献 212


3.3 対話処理における強化学習[南泰浩,目黒豊美] 214
  3.3.1 認識誤りに頑健な強化学習による対話制御 215
  3.3.2 状態設定 218
  3.3.3 増大する状態設定への対処 219
  3.3.4 非タスク志向型対話システム 221
  3.3.5 おわりに 223
  参考文献 224


3.4 マルチエージェント系の報酬設計[荒井幸代] 225
  3.4.1 関連研究 225
  3.4.2 マルチエージェント系への拡張 226
  3.4.3 複数の均衡点が存在するマルコフゲームへの応用 227
    エージェントモデル
    Ngの逆強化学習の適用
      状態遷移確率の推定
      実験と考察
      m人エージェントへの拡張
  3.4.4  231
    マルチエージェント倉庫番
    予備実験
      r_dの影響:
      r_elseの影響:
    Abbeel の逆強化学習の適用
    実験と考察
      実験結果
  3.4.5 おわりに 236
  参考文献 236


3.5 自然言語処理における逆強化学習・模倣学習の適用[坪井祐太,牧野貴樹] 237
  3.5.1 自然言語処理タスクでの決定過程 240
  3.5.2 逆強化学習による自然言語処理 242
  3.5.3 模倣学習による自然言語処理 244
  3.5.4 おわりに 246
  参考文献 247


3.6 医療臨床データ分析への応用[麻生英樹] 249
  3.6.1 確率モデルの医療過程への適用 250
  3.6.2 生体肝移植のタイミング最適化 251
  3.6.3 虚血性心疾患の治療過程モデル 252
  3.6.4 分析による課題 253
  3.6.5 おわりに 255
  参考文献 255


3.7 深層学習を用いたQ関数の学習:Atari 2600と囲碁への応用[前田新一] 257
  3.7.1 Deep Q-Network(DQN)によるAtari 2600のゲームの学習 257
  3.7.2 DQNのネットワーク構造 258
    畳み込みニューラルネットワーク
    中間層のユニットの共存
  3.7.3 DQNの学習アルゴリズム 260
    学習則の安定化のためのターゲットの固定化
    学習に用いるサンプルの偏りの抑制(体験再生)
    その他の実装
    学習結果
    その後の進展
      double Q-learninng
      優先順位付き体験再生(prioritized experience replay)  
  3.7.4 AlphaGoによる囲碁の学習 265
    AlphaGoが出現するまでのコンピュータ囲碁の歴史
    AlphaGoの登場
    AlphaGoによる着手の選択
      Selection
      Expansion
      Evaluation
      Backup
    AlphaGoの学習法
      探索展開用方策p_π(a|s) の教師付き学習方策ネットワークp_σ(a|s) の学習
      強化学習用方策ネットワークp_ρ(a|s) の学習
      状態価値ネットワーク v(s) の学習
    AlphaGoの学習後の性能比較
  3.7.5 おわりに 278
  参考文献 279


第4章 知能のモデルとしての強化学習

4.1 脳の意思決定機構と強化学習[吉本潤一郎,伊藤真,銅谷賢治] 284
  4.1.1 行動生理学と強化学習 284
  4.1.2 報酬予測とドーパミン 286
  4.1.3 価値関数と線条体ニューロン 287
  4.1.4 大脳基底核強化学習モデル 289
  4.1.5 メタ学習と神経修飾物質 291
  4.1.6 おわりに 293
  参考文献 293


4.2 内発的動機付けによるエージェントの学習と発達[浅田稔] 295
  4.2.1 ロボカップドメインでの強化学習 296
  4.2.2 認知発達ロボティクスのアプローチ 297
  4.2.3 心理学的視点からのIM[Intrinsic Motivation] 299
    それ自身のために探究する活動
    能動的に内発的動機付けするものは何か?
  4.2.4 IMの神経科学的基盤 300
    上丘・ドーパミン大脳基底核
    海馬・ドーパミン
    神経修飾物質:ノルアドレナリンアセチルコリン
  4.2.5 IMの計算モデル 301
    知識ベースのIMモデル
    能力ベースのIMモデル
    形態学的IMモデル
  4.2.6 IMと社会性との関連 305
  4.2.7 おわりに 306
  参考文献 307


おわりに(編者) [309-310]
索引 [311-313]





【メモランダム】
・版元の執筆者一覧だと、学位と当時の役職・肩書・所属が置かれていた。

[編著]
グーグル株式会社 博(理) 牧野 貴樹
筑波大学助教 博(工) 澁谷 長史
横浜国立大学講師 博(工) 白川 真一
[著者]
大阪大学教授 工博 浅田 稔
産業技術総合研究所 麻生 英樹
千葉大学教授 博士(工学) 荒井 幸代
京都工芸繊維大学准教授 博(工) 飯間 等
沖縄科学技術大学院大学 博(情報科学) 伊藤 真
広島大学教授 博(工) 大倉 和博
京都工芸繊維大学教授 学術博士 黒江 康明
情報通信研究機構 博(工) 杉本 徳和
日本IBM東京基礎研究所 博(工) 坪井 祐太
沖縄科学技術大学院大学教授 博(工) 銅谷 賢治
株式会社Preferred Networks 博(理) 前田新一
中部大学准教授 博(工) 松井 藤五郎
電気通信大学教授 工博 南 泰浩
独立行政法人大学改革支援・学位授与機構准教授 博(工) 宮崎 和光
NTTコミュニケーション科学基礎研究所 目黒 豊美
日本IBM東京基礎研究所 博(工) 森村 哲郎
ATR脳情報研究所 博(工) 森本 淳
富山大学准教授 博(工) 保田俊行
奈良先端科学技術大学院大学准教授 博(工) 吉本 潤一郎

・『人工知能学会誌』(Vol. 32 No. 2) 2017.03に、大原剛三による本書の紹介が掲載された。
https://www.jstage.jst.go.jp/article/jjsai/32/2/32_323/_article/-char/ja/


・長めの書評は(軽く探しただけでは)見つからない。