統計的学習の基礎―データマイニング・推論・予測― 

統計的学習の基礎 書影
統計的学習の基礎

 機械学習とは,コンピュータに学習能力を持たせるための方法論を研究する学問の名称であり,もともとは人工知能分野の一部として研究されていた。その後,機械学習は統計学と密接な関わりを持つようになり,「統計的学習」として独自の発展の道を歩み始めた。そして,1990年代から現在に至るまでの計算機やインターネットの爆発的な普及と相まって統計的学習の技術は目覚ましい発展を遂げ,いまや情報検索,オンラインショッピングなど,われわれの日常生活とは切り離すことのできない情報通信技術の根幹を支える重要な要素技術の一つとなった。
 本書は,このような発展著しい統計的学習分野の世界的に著名な教科書である“The Elements of Statistical Learning” の全訳である。回帰や分類などの教師あり学習の入門的な話題から,ニューラルネットワーク,サポートベクトルマシンなどのより洗練された学習器,ブースティングやアンサンブル学習などの学習手法の高度化技術,さらにはグラフィカルモデルや高次元学習問題に対するスパース学習法などの最新の話題までを幅広く網羅しており,計算機科学などの情報技術を専門とする大学生・大学院生,および,機械学習技術を基礎科学や産業に応用しようとしている大学院生・研究者・技術者にとって最適な教科書である。

(The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition. Springer, 2009.)

目次

第1章 序章

第2章 教師あり学習の概要
2.1 導入
2.2 変数の種類と用語
2.3 予測のための二つの簡単なアプローチ:最小2乗法と最近傍法
  2.3.1 線形モデルと最小2乗法
  2.3.2 最近傍法
  2.3.3 最小2 乗法から最近傍法へ
2.4 統計的決定理論
2.5 高次元での局所的手法
2.6 統計モデル,教師あり学習,関数近似
  2.6.1 同時分布Pr(X,Y) のための統計モデル
  2.6.2 教師あり学習
  2.6.3 関数近似
2.7 構造化回帰モデル
  2.7.1 なぜ問題が困難なのか
2.8 制限付き推定法
  2.8.1 粗度に対する罰則とベイズ法
  2.8.2 カーネル法と局所回帰
  2.8.3 基底関数と辞書による方法
2.9 モデル選択と,バイアスと分散のトレードオフ

第3章 回帰のための線形手法
3.1 導入
3.2 線形回帰モデルと最小2乗法
  3.2.1 例:前立腺癌
  3.2.2 ガウス=マルコフ定理
  3.2.3 単純な単回帰から重回帰へ
  3.2.4 複数の目的変数
3.3 変数選択
  3.3.1 最良変数組み合わせ選択
  3.3.2 前向き/後向き漸次的選択法
  3.3.3 前向き段階的回帰
  3.3.4 例:前立腺癌(続き)
3.4 縮小推定
  3.4.1 リッジ回帰
  3.4.2 lasso
  3.4.3 考察:部分集合選択,リッジ回帰,lasso
  3.4.4 最小角回帰
3.5 入力に対して線形変換を行う方法
  3.5.1 主成分回帰
  3.5.2 部分最小2乗法
3.6 考察:選択法と縮小法の比較
3.7 複数の目的変数の縮小推定と変数選択
3.8 lasso と関連する解追跡アルゴリズムに関する詳細
  3.8.1 逐次前向き段階的回帰
  3.8.2 区分的線形解追跡アルゴリズム
  3.8.3 ダンツィク選択器
  3.8.4 グループlasso
  3.8.5 lasso の性質について
  3.8.6 総当たり座標最適化
3.9 計算上考慮すべき事柄

第4章 分類のための線形手法
4.1 導入
4.2 指示行列の線形回帰
4.3 線形判別分析
  4.3.1 正則化判別分析
  4.3.2 線形判別分析の計算
  4.3.3 階数低減型線形判別分析
4.4 ロジスティック回帰
  4.4.1 ロジスティック回帰モデルの当てはめ
  4.4.2 例:南アフリカの心臓疾患データ
  4.4.3 2 次近似と2 次推測
  4.4.4 L1 正則化付きロジスティック回帰
  4.4.5 ロジスティック回帰か線形判別分析か
4.5 分離超平面
  4.5.1 ローゼンブラットのパーセプトロン学習アルゴリズム
  4.5.2 最適分離超平面

第5章 基底展開と正則化
5.1 導入
5.2 区分的多項式とスプライン
  5.2.1 3次自然スプライン
  5.2.2 例:南アフリカの心臓疾患データ
  5.2.3 例:音素認識
5.3 フィルタリングと特徴抽出
5.4 平滑化スプライン
  5.4.1 自由度と平滑化行列
5.5 平滑化パラメータの自動選択
  5.5.1 固定自由度
  5.5.2 バイアスと分散のトレードオフ
5.6 ノンパラメトリックロジスティック回帰
5.7 多次元スプライン
5.8 正則化と再生核ヒルベルト空間
  5.8.1 カーネルにより生成される関数空間
  5.8.2 再生核ヒルベルト空間の例
5.9 ウェーブレット平滑化
  5.9.1 ウェーブレット基底とウェーブレット変換
  5.9.2 適応的ウェーブレットフィルタリング

第6章 カーネル平滑化法
6.1 1次元カーネル平滑化手法
  6.1.1 局所線形回帰
  6.1.2 局所多項式回帰
6.2 カーネル幅の選択
6.3 R^p における局所回帰
6.4 R^p における構造化局所回帰モデル
  6.4.1 構造化カーネル
  6.4.2 構造化回帰関数
6.5 局所尤度およびその他の手法
6.6 カーネル密度推定と識別
  6.6.1 カーネル密度推定
  6.6.2 カーネル密度分類器
  6.6.3 単純ベイズ分類器
6.7 動径基底関数とカーネル
6.8 密度推定と識別のための混合モデル
6.9 計算上考慮すべき事柄

第7章 モデルの評価と選択
7.1 導入
7.2 バイアス,分散,モデルの複雑度
7.3 バイアス-分散分解
  7.3.1 例:バイアスと分散のトレードオフ
7.4 訓練誤差の最善度
7.5 訓練標本外誤差の推定
7.6 有効パラメータ数
7.7 ベイズ法とベイズ情報量規準
7.8 最小記述長
7.9 バプニック=チェルボネンキス次元
  7.9.1 例(続き)
7.10 交差確認
  7.10.1 K分割交差確認
  7.10.2 交差確認を実行する正しい方法と間違った方法
  7.10.3 交差確認は本当に有効か
7.11 ブートストラップ法
  7.11.1 例(続き)
7.12 条件付きテスト誤差か期待テスト誤差か

第8章 モデル推論と平均化
8.1 導入
8.2 ブートストラップと最尤推定法
  8.2.1 平滑化の例
  8.2.2 最尤推定による推論
  8.2.3 ブートストラップ法vs.最尤推定
8.3 ベイズ法
8.4 ブートストラップ法とベイズ推論の関係
8.5 EM アルゴリズム
  8.5.1 要素が二つの混合モデル
  8.5.2 一般の場合のEM アルゴリズム
  8.5.3 最大化-最大化手法としてのEM
8.6 事後確率分布から標本抽出するためのMCMC
8.7 バギング
  8.7.1 例:模擬データによる木
8.8 モデルの平均と統合
8.9 確率的探索:バンピング

第9章 加法的モデル,木,および関連手法
9.1 一般化加法的モデル
  9.1.1 加法的モデルの当てはめ
  9.1.2 例:加法的ロジスティック回帰
  9.1.3 まとめ
9.2 木に基づく方法
  9.2.1 背景
  9.2.2 回帰木
  9.2.3 分類木
  9.2.4 他の問題
  9.2.5 例:スパムメール(続き)
9.3 抑制的規則導出法
  9.3.1 例:スパムメール(続き)
9.4 多変量適応的回帰スプライン
  9.4.1 例:スパムメール(続き)
  9.4.2 例:試行データ
  9.4.3 その他の話題
9.5 階層的エキスパート混合モデル
9.6 欠損データ
9.7 計算上考慮すべき事柄

第10章 ブースティングと加法的木
10.1 ブースティング法
  10.1.1 本章の概要
10.2 ブースティングの加法的モデル当てはめ
10.3 前向き段階的加法的モデリング
10.4 指数損失とアダブースト
10.5 なぜ指数損失関数か
10.6 損失関数とロバスト性
10.7 データマイニングの「万能」手法
10.8 例:スパムデータ
10.9 ブースティング木
10.10 勾配ブースティングによる数値最適化
  10.10.1 最急降下法
  10.10.2 勾配ブースティング
  10.10.3 勾配ブースティングの実装
10.11 ブースティングのための木の適切な大きさ
10.12 正則化
  10.12.1 縮小法
  10.12.2 部分標本化
10.13 説明性
  10.13.1 予測変数の相対的重要性
  10.13.2 部分依存図
10.14 具体例
  10.14.1 カリフォルニアの住宅
  10.14.2 ニュージーランドの魚
  10.14.3 個人属性情報データ

第11章 ニューラルネットワーク
11.1 導入
11.2 射影追跡回帰
11.3 ニューラルネットワーク
11.4 ニューラルネットワークの当てはめ
11.5 ニューラルネットワークを訓練するときのいくつかの問題
  11.5.1 初期値
  11.5.2 過学習
  11.5.3 入力のスケーリング
  11.5.4 隠れユニットと隠れ層の数
  11.5.5 複数の極小解
11.6 例:試行データ
11.7 例:郵便番号データ
11.8 考察
11.9 ベイズニューラルネットワークとNIPS 2003 チャレンジ
  11.9.1 ベイズ,ブースティング,バギング
  11.9.2 性能比較
11.10 計算上考慮すべき事柄

第12章 サポートベクトルマシンと適応型判別
12.1 導入
12.2 サポートベクトル分類器
  12.2.1 サポートベクトル分類器の計算
  12.2.2 例:混合分布(続き)
12.3 サポートベクトルマシンとカーネル
  12.3.1 分類のためのSVM の計算
  12.3.2 罰則化手法としてのSVM
  12.3.3 関数推定と再生核
  12.3.4 SVM と次元の呪い
  12.3.5 SVM 分類器のための解追跡アルゴリズム
  12.3.6 回帰のためのSVM
  12.3.7 回帰とカーネル
  12.3.8 考察
12.4 線形判別分析の一般化
12.5 適応型判別分析
  12.5.1 FDA 推定値の計算
12.6 罰則付き判別分析
12.7 混合判別分析
  12.7.1 例:波形データ
12.8 計算上考慮すべき事柄

第13章 プロトタイプ法と最近傍探索
13.1 導入
13.2 プロトタイプ法
  13.2.1 K 平均クラスタリング
  13.2.2 学習ベクトル量子化
  13.2.3 混合ガウス分布
13.3 k 最近傍分類器
  13.3.1 例:比較研究
  13.3.2 例:k 最近傍法と画像シーンの分類
  13.3.3 不変計量と接距離
13.4 適応的最近傍法
  13.4.1 例
  13.4.2 最近傍探索のための大域的な次元削減
13.5 計算上考慮すべき事柄

第14章 教師なし学習
14.1 導入
14.2 相関ルール
  14.2.1 バスケット分析
  14.2.2 アプリオリアルゴリズム
  14.2.3 例:バスケット分析
  14.2.4 教師あり学習としての教師なし学習
  14.2.5 一般化相関ルール
  14.2.6 教師あり学習法の選び方
  14.2.7 例:バスケット分析(続き)
14.3 クラスタ分析
  14.3.1 類似度行列
  14.3.2 属性に基づく非類似度
  14.3.3 オブジェクト間非類似度
  14.3.4 クラスタリングアルゴリズム
  14.3.5 組み合わせアルゴリズム
  14.3.6 K 平均クラスタリング
  14.3.7 ソフトなK 平均クラスタリングとしての混合ガウス分布
  14.3.8 例:ヒト腫瘍マイクロアレイデータ
  14.3.9 ベクトル量子化
  14.3.10 K メドイドクラスタリング
  14.3.11 実用上の問題
  14.3.12 階層的クラスタリング
14.4 自己組織化マップ
14.5 主成分分析と主曲線・主曲面
  14.5.1 主成分分析
  14.5.2 主曲線と主曲面
  14.5.3 スペクトラルクラスタリング
  14.5.4 カーネル主成分分析
  14.5.5 疎主成分分析
14.6 非負値行列分解
  14.6.1 原型分析
14.7 独立成分分析と探索的射影追跡
  14.7.1 隠れ変数と因子分析
  14.7.2 独立成分分析
  14.7.3 探索的射影追跡法
  14.7.4 独立成分分析への直接的アプローチ
14.8 多次元尺度構成法
14.9 非線形次元削減と局所多次元尺度構成法
14.10 Google ページランクのアルゴリズム

第15章 ランダムフォレスト
15.1 導入
15.2 ランダムフォレストの定義
15.3 ランダムフォレストの詳細
  15.3.1 抜取標本
  15.3.2 変数重要度
  15.3.3 類似度図
  15.3.4 ランダムフォレストと過学習
15.4 ランダムフォレストの解析
  15.4.1 分散と無相関効果
  15.4.2 バイアス
  15.4.3 適応型最近傍法

第16章 アンサンブル学習
16.1 導入
16.2 ブースティングと正則化軌跡
  16.2.1 罰則付き回帰
  16.2.2 「まばらなところに賭けろ」の法則
  16.2.3 正則化軌跡,過学習,マージン
16.3 アンサンブルの学習
  16.3.1 良いアンサンブルを学習する
  16.3.2 規則のアンサンブル

第17章 無向グラフィカルモデル
17.1 導入
17.2 マルコフグラフとその性質
17.3 連続変数に対する無向グラフィカルモデル
  17.3.1 グラフ構造が既知の場合のパラメータ推定
  17.3.2 グラフ構造の推定
17.4 離散変数に対する無向グラフィカルモデル
  17.4.1 グラフ構造が既知の場合のパラメータ推定
  17.4.2 隠れ頂点
  17.4.3 グラフ構造の推定
  17.4.4 制限ボルツマンマシン

第18章 高次元の問題:p ≫ N
18.1 p がN よりもかなり大きい場合
18.2 対角線形判別分析と最近傍縮小重心
18.3 2次正則化を用いた線形分類器
  18.3.1 正則化判別分析
  18.3.2 2次正則化を用いたロジスティック回帰
  18.3.3 サポートベクトル分類器
  18.3.4 特徴選択
  18.3.5 p ≫ N の場合の計算上の工夫
18.4 L_1 正則化を用いた線形分類器
  18.4.1 lasso のタンパク質の質量分析への応用
  18.4.2 関数型データに対する融合型lasso
18.5 特徴量が使えない場合の分類
  18.5.1 例:文字列カーネルとタンパク質分類
  18.5.2 内積カーネルとペア間距離に基づく分類器とその他のモデル
  18.5.3 例:概要の分類
18.6 高次元回帰:教師あり主成分分析
  18.6.1 潜在変数モデルとの関係
  18.6.2 部分最小2 乗法との関係
  18.6.3 特徴選択のための出力変数の前処理
18.7 特徴量評価と多重検定問題
  18.7.1 誤り発見率
  18.7.2 非対称閾値とマイクロアレイ有意性分析法
  18.7.3 誤り発見率のベイズ的解釈