『仮説のつくりかた――多様なデータから新たな発想をつかめ』(石川博共立出版 2021)

著者：石川博［いしかわ・ひろし］(1956-)　ソーシャル・ビッグデータ、データベース、知能情報学、Web情報学。
Cover Design：小山巧［こやま・たくみ］　Shiki Design Office
件名：ビッグデータ--データ処理
件名：仮説
NDC：007.609　情報学．情報科学 >> データ処理．情報処理 >> データ管理

仮説のつくりかた - 共立出版

仮説のつくりかた: 多様なデータから新たな発想をつかめ

作者:石川博
共立出版

Amazon

【目次】
口絵写真（17枚）　[/]
はじめに（2021年8月　柿生にて　石川博）　[iii-iv]
目次　[v-vii]

第1章　基本概念
1.1　5G時代のビッグデータ　001
　　1.1.1　ビッグデータの特徴
　　1.1.2　Society 5.0
　　1.1.3　5G

1.2　処理の高速化　004
　　1.2.1　木構造の利用
　　1.2.2　部分問題解決結果の再利用
　　1.2.3　局所性の利用
　　1.2.4　データ削減とオンライン処理
　　　　データ削減
　　　　オンライン処理
　　1.2.5　並列処理
　　1.2.6　関数変換と問題変形
　　　　関数変換
　　　　問題変形

1.3　ビッグデータ応用　013

第2章　仮説
2.1　仮説とは何か　015
　　2.1.1　仮説の定義
　　2.1.2　仮説のライフサイクル
　　2.1.3　仮説と理論，モデルの関係
　　2.1.4　仮説とデータ

2.2　仮説生成のヒント　020
　　　　リサーチクエスチョン

2.3　可視化　021
　　　　低次元（1次元・2次元・3次元）データ
　　　　高次元データ
　　　　木構造
　　　　時系列
　　　　地図（地上，宇宙）
　　　　統計的サマリ（平均，分散，相関）

2.4　推論　025
　　2.4.1　科学哲学と仮説演繹法
　　　　科学哲学
　　　　仮説演繹法
　　2.4.2　演繹的推論
　　2.4.3　帰納的推論
　　2.4.4　一般化と特殊化
　　　　一般化
　　　　特殊化
　　2.4.5　もっともらしい推論
　　2.4.6　類推
　
2.5　問題解決　037
　　2.5.1　数学における問題解決
　　2.5.2　問題解決のための実行手段
　　2.5.3　無意識の力

2.6　身近な問題解決　041
　　2.6.1　分割統治と一括計算
　　　　Case 東京23区の人口は何人か
　　2.6.2　類推
　　　　Case 重力子仮説
　　2.6.3　対称性の利用
　　　　Case ガウスによる数列の和の計算
　　2.6.4　不変量の利用
　　　　Case タクシーの必要台数はいくつか
　　2.6.5　比率に基づく推論
　　　　Case 惑星の表面温度はどれくらいか
　　2.6.6　次元解析
　　　　Case 円運動をする電車に働く加速度
　　2.6.7　確率的推論
　　　　Case うろ覚えの電話番号

2.7　科学と仮説　052
　　2.7.1　問題解決をするデータ
　　　　ブラーエのデータ
　　2.7.2　実験をするガリレオ
　　　　ガリレオの実験
　　　　ガリレオの慣性の法則
　　2.7.3　普遍を探究するニュートン
　　　　推論規則
　　　　運動の３法則
　　　　万有引力の法則
　　2.7.4　観察するダーウィン

第3章　回帰
3.1　回帰の基本　073
　　3.1.1　概要
　　3.1.2　ケレスの軌道予測
　　　　チチウス・ボーデの法則［Titius–Bode law］
　　　　ガウスの挑戦
　　　　ケレスの軌道計算
　　3.1.3　最小二乗法
　　3.1.4　回帰から直交回帰，そして主成分分析
　　3.1.5　非線形回帰
　　　　ニュートン法
　　　　ガウス・ニュートン法
　　3.1.6　回帰からスパースモデリングへ
　　　　「n≪p」問題
　　　　次元の呪い
　　　　スパースモデリング
　　　　LASSO推定
　　　　モデルの学習とテスト
　　　　Elastic Net
　　　　total squared variation

3.2　回帰，相関から因果関係へ　098
　　3.2.1　概要
　　3.2.2　遺伝学と統計学
　　3.2.3　ゴルトン
　　　　回帰概念の提唱
　　　　二項分布とクインカス［quincunx］
　　3.2.4　ピアソン
　　　　確率分布の分類
　　　　ヒストグラムの考案
　　　　相関係数の定式化
　　　　モーメントの概念
　　　　カイ二乗分布とカイ二乗検定
　　　　科学の文法
　　3.2.5　ネイマン［Jerzy Neyman］とゴセット［William Sealy Gosset］
　　　　ネイマンの尤度と最尤推定
　　　　t分布とt検定
　　3.2.6　ライト［Sewall Green Wright］
　　　　遺伝的浮動
　　3.2.7　スピアマン［Charles Edward Spearman］
　　　　因子モデル
　　3.2.8　ナイチンゲール
　　3.2.9　メンデル
　　　　遺伝継承法則
　　　　メンデルの実験
　　　　メンデル学派
　　3.2.10　ハーディー・ワインベルク平衡
　　3.2.11　フィッシャー
　　　　相加的ポリジェニックモデル（離散と連続の場合）
　　　　分散分析

第4章　クラスタリングとニューラルネットワーク
4.1　クラスタリング　121
　　4.1.1　概要
　　4.1.2　クラスタリングの定義と歴史
　　　　クラスタリングの定義
　　　　クラスタリングの歴史
　　4.1.3　分割によるクラスタリング
　　　　k-means
　　　　正規混合モデル
　　4.1.4　階層的凝集モデル
　　　　階層的凝集クラスタリング
　　　　Lance-Williamsの係数
　　4.1.5　クラスタリング結果の評価
　　　　利用者による評価
　　　　エントロピー
　　　　ピュリティ
　　　　内部的指標
　　4.1.6　クラスタリングの展開
　　　　スケーラビリティへの対応
　　　　階層的アプローチに基づくクラスタリング
　　　　密度概念に基づくクラスタリング

4.2　アーティフィシャルニューラルネットワークまたは深層学習　142
　　4.2.1　概要
　　4.2.2　クロスエントロピーと勾配降下法
　　　　クロスエントロピー
　　　　勾配降下法
　　4.2.3　ニューラルネットワーク
　　　　生物学的ニューロン
　　4.2.4　人工ニューラルネットワーク
　　　　多層パーセプトロン
　　　　学習モデル
　　　　バックプロパゲーション
　　　　確率的降下法
　　　　各種変数
　　4.2.5　分類と決定木
　　　　決定木の学習
　　　　決定木による分類
　　4.2.6　ディープラーニング（深層学習）決定木
　　　　CNN
　　　　GAN
　　　　RNN
　　　　LSTM

4.3　統合的仮説生成　160
　　4.3.1　概要
　　4.3.2　統合的仮説生の方法論
　　4.3.3　応用
　　　　EBPM［Evidence-Based Policy Making］
　　4.3.4　データ構造
　　　　階層的データ（空間）
　　　　階層的データ（時間）
　　　　階層的データ（文書）

第5章　差分による仮説生成
5.1　仮説差分法　169
　　5.1.1　概要
　　5.1.2　差分演算

5.2　時間における差分　170
　　5.2.1　概要
　　5.2.2　時系列データの分析
　　5.2.3　時間差分（差分系列）
　　　　Case 掘り出し物スポット
　　　　個人の満足度
　　　　集団の満足度
　　　　Case 日銀短観［全国企業短期経済観測調査］
　　5.2.4　差分の差分
　　　　Case 新薬の効果
　　5.2.5　時系列のモデル（平滑化とフィルタリング）
　　　　時間平均
　　　　移動平均
　　　　指数平滑法
　　　　移動平均の差分
　　　　Case 桜の見頃推定
　　　　総合的仮説の生成
　　　　統合分析
　　　　指数平滑法の差分
　　　　Case ローカルなトレンドスポットの発見
　　　　Case 平常時の状態
　　　　エルニーニョ現象時の状態
　　　　ラニーニャ現象時の状態
　　　　南方振動
　　　　日本への影響
　　　　エンソの判定【原文ママ】
　　5.2.6　時系列予測
　　　　MQ-RNN［Multi-Horizon Quantile Recurrent Neural Network］

5.3　空間における差分　198
　　5.3.1　概要
　　5.3.2　画像の時間差分
　　5.3.3　医療画像の差分解析
　　5.3.4　地形データの差分解析
　　5.3.5　月面画像の差分
　　5.3.6　画像処理
　　　　平滑化フィルタ
　　　　エッジ抽出
　　　　SIFT［scale-invariant feature transform］特徴量
　　　　動画像符号化

5.4　概念空間における差分　210
　　5.4.1　概要
　　5.4.2　概念間の差分を利用した概念の本質的な意味の作成
　　　　World2Vec
　　　　提案手法
　　　　都市・地域やランドマークの名称を含むキーワードリストの作成
　　　　ツイートの抽出とコーパスの作成
　　　　実験
　　5.4.3　類似した料理から容易に類推可能な国際的な料理表記方式

5.5　仮説間差分　229
　　5.5.1　概要
　　5.5.2　Free Wi-Fiアクセスポイント新規設置地点候補の発見
　　　　提案手法
　　　　可視化
　　　　その他の観光応用：ビッグデータを活用した観光行動分析実証事業（適用事例）
　　5.5.3　GWAS［Genome Wide Association Study］

第6章　仮説間補完，仮説間重ね合わせ，そして仮説間和分
6.1　概要　243
　　　　仮説間結合（補完）
　　　　仮説間重ね合わせ
　　　　仮説間和分

6.2　仮説間補完　245
　　6.2.1　概要
　　6.2.2　背景
　　6.2.3　提案システム
　　　　密集地と避難施設の抽出
　　　　複数の避難経路の抽出
　　　　ハイリスク路
　　　　混雑度の算出
　　　　災害時活動困難度の算出
　　　　リスク度の算出
　　6.2.4　システム実行例・考察
　　　　データセット
　　　　抽出されたハイリスク路についての考察
　　　　新宿四丁目南側の明治通りについての考察

6.3　モビリティサービスのための機械学習を用いた自動車の異常振動検知（仮説間重ね合わせ1）　258
　　6.3.1　概要
　　6.3.2　背景
　　6.3.3　提案手法
　　　　の処理の流れ
　　　　イベント区間検出方法
　　　　特徴量生成手法
　　　　GMM［Gaussian Mixture Model］
　　6.3.4　実験
　　　　データセット
　　　　実験条件
　　　　実装
　　　　実験結果

6.4　かぐやDEMを用いた，機械学習による中央丘クレーター識別（仮説間重ね合わせ2）　267
　　6.4.1　概要
　　6.4.2　はじめに
　　6.4.3　クレーターの抽出
　　　　提案手法
　　　　機械学習による識別
　　　　適合率と再現率
　　6.4.4　実験
　　　　データセット
　　　　パラメータ
　　　　学習モデル
　　　　識別精度

引用文献　[281-]294
索引　[295-301]

Column
1 オッカムの剃刀　016
2 数学的帰納法　030
3 フィボナッチ数列　070
4 探さなければ見つからない　082
5 ダイアグラム　111
6 教師あり学習と教師なし学習　123
7 行動経済学　177
8 差分方程式　198
9 アポロ15号とNAC 画像　210
10 アンサンブル学習　245

【抜き書き】
・「はじめに」から。

　本書では多くのビッグデータのユースケース（具体的な応用例）の観察に基づいて，ビッグデータを活用する応用情報システムを構築するために必要な基盤技術となる統合的な仮説生成の方法を，データ分析（人工知能，機械学習，データマイニング）とデータ管理（データベース）の技術を調和的に利用したアプローチに基づいて説明する．