contents memorandum はてな

目次とメモを置いとく場

『仮説のつくりかた――多様なデータから新たな発想をつかめ』(石川博 共立出版 2021)

著者:石川 博[いしかわ・ひろし](1956-) ソーシャル・ビッグデータ、データベース、知能情報学、Web情報学。
Cover Design:小山 巧[こやま・たくみ] Shiki Design Office
件名:ビッグデータ--データ処理
件名:仮説
NDC:007.609 情報学.情報科学 >> データ処理.情報処理 >> データ管理


仮説のつくりかた - 共立出版


【目次】
口絵写真(17枚) [/]
はじめに(2021年8月 柿生にて 石川博) [iii-iv]
目次 [v-vii]


第1章 基本概念
1.1 5G時代のビッグデータ 001
  1.1.1 ビッグデータの特徴
  1.1.2 Society 5.0
  1.1.3 5G

1.2 処理の高速化 004
  1.2.1 木構造の利用
  1.2.2 部分問題解決結果の再利用
  1.2.3 局所性の利用
  1.2.4 データ削減とオンライン処理
    データ削減
    オンライン処理
  1.2.5 並列処理
  1.2.6 関数変換と問題変形
    関数変換
    問題変形

1.3 ビッグデータ応用 013


第2章 仮説
2.1 仮説とは何か 015
  2.1.1 仮説の定義
  2.1.2 仮説のライフサイクル
  2.1.3 仮説と理論,モデルの関係
  2.1.4 仮説とデータ

2.2 仮説生成のヒント 020
    リサーチクエスチョン

2.3 可視化 021
    低次元(1次元・2次元・3次元)データ
    高次元データ
    木構造
    時系列
    地図(地上,宇宙)
    統計的サマリ(平均,分散,相関)

2.4 推論 025
  2.4.1 科学哲学と仮説演繹法
    科学哲学
    仮説演繹法
  2.4.2 演繹的推論
  2.4.3 帰納的推論
  2.4.4 一般化と特殊化
    一般化
    特殊化
  2.4.5 もっともらしい推論
  2.4.6 類推
 
2.5 問題解決 037
  2.5.1 数学における問題解決
  2.5.2 問題解決のための実行手段
  2.5.3 無意識の力

2.6 身近な問題解決 041
  2.6.1 分割統治と一括計算
    Case 東京23区の人口は何人か
  2.6.2 類推
    Case 重力子仮説
  2.6.3 対称性の利用
    Case ガウスによる数列の和の計算
  2.6.4 不変量の利用
    Case タクシーの必要台数はいくつか
  2.6.5 比率に基づく推論
    Case 惑星の表面温度はどれくらいか
  2.6.6 次元解析
    Case 円運動をする電車に働く加速度
  2.6.7 確率的推論
    Case うろ覚えの電話番号

2.7 科学と仮説 052
  2.7.1 問題解決をするデータ
    ブラーエのデータ
  2.7.2 実験をするガリレオ
    ガリレオの実験
    ガリレオ慣性の法則
  2.7.3 普遍を探究するニュートン
    推論規則
    運動の3法則
    万有引力の法則
  2.7.4 観察するダーウィン


第3章 回帰
3.1 回帰の基本 073
  3.1.1 概要
  3.1.2 ケレスの軌道予測
    チチウス・ボーデの法則[Titius–Bode law]
    ガウスの挑戦
    ケレスの軌道計算
  3.1.3 最小二乗法
  3.1.4 回帰から直交回帰,そして主成分分析
  3.1.5 非線形回帰
    ニュートン法
    ガウス・ニュートン
  3.1.6 回帰からスパースモデリング
    「n≪p」問題
    次元の呪い
    スパースモデリング
    LASSO推定
    モデルの学習とテスト
    Elastic Net
    total squared variation

3.2 回帰,相関から因果関係へ 098
  3.2.1 概要
  3.2.2 遺伝学と統計学
  3.2.3 ゴルトン
    回帰概念の提唱
    二項分布とクインカス[quincunx]
  3.2.4 ピアソン
    確率分布の分類
    ヒストグラムの考案
    相関係数の定式化
    モーメントの概念
    カイ二乗分布カイ二乗検定
    科学の文法
  3.2.5 ネイマン[Jerzy Neyman]とゴセット[William Sealy Gosset]
    ネイマンの尤度と最尤推定
    t分布とt検定
  3.2.6 ライト[Sewall Green Wright]
    遺伝的浮動
  3.2.7 スピアマン[Charles Edward Spearman]
    因子モデル
  3.2.8 ナイチンゲール
  3.2.9 メンデル
    遺伝継承法則
    メンデルの実験
    メンデル学派
  3.2.10 ハーディー・ワインベルク平衡
  3.2.11 フィッシャー
    相加的ポリジェニックモデル(離散と連続の場合)
    分散分析


第4章 クラスタリングニューラルネットワーク
4.1 クラスタリング 121
  4.1.1 概要
  4.1.2 クラスタリングの定義と歴史
    クラスタリングの定義
    クラスタリングの歴史
  4.1.3 分割によるクラスタリング
    k-means
    正規混合モデル
  4.1.4 階層的凝集モデル
    階層的凝集クラスタリング
    Lance-Williamsの係数
  4.1.5 クラスタリング結果の評価
    利用者による評価
    エントロピー
    ピュリティ
    内部的指標
  4.1.6 クラスタリングの展開
    スケーラビリティへの対応
    階層的アプローチに基づくクラスタリング
    密度概念に基づくクラスタリング

4.2 アーティフィシャルニューラルネットワークまたは深層学習 142
  4.2.1 概要
  4.2.2 クロスエントロピーと勾配降下法
    クロスエントロピー
    勾配降下法
  4.2.3 ニューラルネットワーク
    生物学的ニューロン
  4.2.4 人工ニューラルネットワーク
    多層パーセプトロン
    学習モデル
    バックプロパゲーション
    確率的降下法
    各種変数
  4.2.5 分類と決定木
    決定木の学習
    決定木による分類
  4.2.6 ディープラーニング(深層学習)決定木
    CNN
    GAN
    RNN
    LSTM

4.3 統合的仮説生成 160
  4.3.1 概要
  4.3.2 統合的仮説生の方法論
  4.3.3 応用
    EBPM[Evidence-Based Policy Making]
  4.3.4 データ構造
    階層的データ(空間)
    階層的データ(時間)
    階層的データ(文書)


第5章 差分による仮説生成
5.1 仮説差分法 169
  5.1.1 概要
  5.1.2 差分演算

5.2 時間における差分 170
  5.2.1 概要
  5.2.2 時系列データの分析
  5.2.3 時間差分(差分系列)
    Case 掘り出し物スポット
    個人の満足度
    集団の満足度
    Case 日銀短観全国企業短期経済観測調査
  5.2.4 差分の差分
    Case 新薬の効果
  5.2.5 時系列のモデル(平滑化とフィルタリング)
    時間平均
    移動平均
    指数平滑法
    移動平均の差分
    Case 桜の見頃推定
    総合的仮説の生成
    統合分析
    指数平滑法の差分
    Case ローカルなトレンドスポットの発見
    Case 平常時の状態
    エルニーニョ現象時の状態
    ラニーニャ現象時の状態
    南方振動
    日本への影響
    エンソの判定【原文ママ
  5.2.6 時系列予測
    MQ-RNN[Multi-Horizon Quantile Recurrent Neural Network]

5.3 空間における差分 198
  5.3.1 概要
  5.3.2 画像の時間差分
  5.3.3 医療画像の差分解析
  5.3.4 地形データの差分解析
  5.3.5 月面画像の差分
  5.3.6 画像処理
    平滑化フィルタ
    エッジ抽出
    SIFT[scale-invariant feature transform]特徴量
    動画像符号化

5.4 概念空間における差分 210
  5.4.1 概要
  5.4.2 概念間の差分を利用した概念の本質的な意味の作成
    World2Vec
    提案手法
    都市・地域やランドマークの名称を含むキーワードリストの作成
    ツイートの抽出とコーパスの作成
    実験
  5.4.3 類似した料理から容易に類推可能な国際的な料理表記方式

5.5 仮説間差分 229
  5.5.1 概要
  5.5.2 Free Wi-Fiアクセスポイント新規設置地点候補の発見
    提案手法
    可視化
    その他の観光応用:ビッグデータを活用した観光行動分析実証事業(適用事例)
  5.5.3 GWAS[Genome Wide Association Study]


第6章 仮説間補完,仮説間重ね合わせ,そして仮説間和分
6.1 概要 243
    仮説間結合(補完)
    仮説間重ね合わせ
    仮説間和分

6.2 仮説間補完 245
  6.2.1 概要
  6.2.2 背景
  6.2.3 提案システム
    密集地と避難施設の抽出
    複数の避難経路の抽出
    ハイリスク路
    混雑度の算出
    災害時活動困難度の算出
    リスク度の算出
  6.2.4 システム実行例・考察
    データセット
    抽出されたハイリスク路についての考察
    新宿四丁目南側の明治通りについての考察

6.3 モビリティサービスのための機械学習を用いた自動車の異常振動検知(仮説間重ね合わせ1) 258
  6.3.1 概要
  6.3.2 背景
  6.3.3 提案手法
    の処理の流れ
    イベント区間検出方法
    特徴量生成手法
    GMM[Gaussian Mixture Model]
  6.3.4 実験
    データセット
    実験条件
    実装
    実験結果

6.4 かぐやDEMを用いた,機械学習による中央丘クレーター識別(仮説間重ね合わせ2) 267
  6.4.1 概要
  6.4.2 はじめに
  6.4.3 クレーターの抽出
    提案手法
    機械学習による識別
    適合率と再現率
  6.4.4 実験
    データセット
    パラメータ
    学習モデル
    識別精度


引用文献 [281-]294
索引 [295-301]



Column
1 オッカムの剃刀  016
2 数学的帰納法 030
3 フィボナッチ数列 070
4 探さなければ見つからない 082
5 ダイアグラム 111
6 教師あり学習教師なし学習 123
7 行動経済学 177
8 差分方程式 198
9 アポロ15号とNAC 画像 210
10 アンサンブル学習 245





【抜き書き】
・「はじめに」から。

 本書では多くのビッグデータユースケース(具体的な応用例)の観察に基づいて,ビッグデータを活用する応用情報システムを構築するために必要な基盤技術となる統合的な仮説生成の方法を,データ分析(人工知能機械学習データマイニング)とデータ管理(データベース)の技術を調和的に利用したアプローチに基づいて説明する.

 本書は,ビッグデータ人工知能を応用した現代の情報システムの理解と構築のための参考書というだけでなく,広く仮説について身近において参照できる,いわば仮説大全のような書になることを願う.