データ科学の基礎

書籍情報
ISBN978-4-320-12479-0
判型B5 
ページ数232ページ
発売予定2021年12月13日
価格2,750円(税込)
データ科学の基礎 書影
データ科学の基礎

新刊

本書のテーマは「データ科学」である。観測を通して現実世界の様相を数空間に写像したものをデータと捉えてみよう。数空間に展開されたデータに統計学や機械学習を適用することで,パターンの発見や仮説検証,あるいは予測を行えるようになる。こうして,現実世界の複雑な有様を簡明にかつ定量的に理解し,理解に基づく結論や提案を,新たなデータ分析を通して反証可能な形で提示する。これがデータ科学の特徴であると言えるだろう。

本書では,学生が日々利用する大学生協の実際の売上データを用いて分析を行う。標準ソフトウェアは社会に出てからも利用機会が多いExcelを用い,文理双方の読者へ向けて,高度な数学やプログラミングに関する知識は必要としない。本書は社会人を含む幅広い読者の方々に向けて,データ科学を学ぶ際の参考図書としても役立つであろう。

目次

第1章 はじめに
1.1 データ活用社会とデータ科学
1.2 データサイエンティストと分析の流れ

第2章 データ分析の例
2.1 回帰分析を使った予測と因果関係の推定
2.2 効果の有意差を調べる統計手法

第3章 データを扱うための基礎事項
3.1 量的変数と質的変数
3.2 データの可視化
3.3 基礎統計量
3.4 確率分布
  3.4.1 様々な確率分布
  3.4.2 正規分布
  3.4.3 頻度主義統計とベイズ統計での母数に対する見方の違い
3.5 2変数の相関
3.6 最小2乗法と最尤法
  3.6.1 最小2乗法と回帰係数
  3.6.2 最尤法と最尤推定量
  3.6.3 確率分布とエントロピー
3.7 大数の法則と中心極限定理
  3.7.1 大数の法則
  3.7.2 中心極限定理
3.8 一般化線形モデル
  3.8.1 線形回帰モデルが適用できる対象の拡大
  3.8.2 変数変換
3.9 構造化されていないデータ

第4章 データの前処理と特徴量の抽出
4.1 データの前処理
  4.1.1 欠損データの処理法
  4.1.2 スケーリングとエンコーディング
4.2 分析の目的に適合した特徴量の抽出
  4.2.1 特徴量の把握
  4.2.2 因子関係におけるいくつかのパターン

第5章 データの解析手法
5.1 様々な手法を総合的に駆使した分析
5.2 分析手法の概要
  5.2.1 回帰分析:因果関係の推定・予測
  5.2.2 統計的検定と推定:群間における平均値・分散の有意差の有無を検出
  5.2.3 結果を2値とした因果の推定・予測:ロジスティック回帰分析
  5.2.4 全体の見通しをよくするための分析:主成分分析とクラスター化
  5.2.5 教師有り学習による回帰・分類:決定木分析
  5.2.6 膨大なデータから入出力の対応関係を学習させて分類や回帰予測を行う数理モデル:深層学習
  5.2.7 自然言語の教師有り学習による分類:ナイーブベイズ

第6章 事例研究
6.1 分析対象のデータ
6.2 外れ値の検出
6.3 相関係数:売上特性
6.4 単回帰分析:売上と気象の関係
6.5 F検定とt検定:曜日効果
  6.5.1 食堂データと分散比
  6.5.2 購買データと分散比
  6.5.3 食堂データの平均値における曜日依存性
  6.5.4 購買データの平均値における曜日依存性

第7章 データの収集や送信のための情報通信技術
7.1 インターネットや移動通信によるデータの流れ
7.2 インターネット技術の概観
7.3 企業ネットワーク用のWAN
7.4 移動体通信
7.5 全地球測位システム(GPS)

第8章 統計学の基礎
8.1 標本集団と母集団
8.2 データの中心とデータの広がり
8.3 多変量データの記述統計
8.4 時系列と自己相関
8.5 確率変数と乱数
8.6 最小2乗法と近似
8.7 重回帰モデル
8.8 統計分布モデル
  8.8.1 一様分布
  8.8.2 ベルヌーイ分布
  8.8.3 2項分布
  8.8.4 ポアソン分布
  8.8.5 正規分布
  8.8.6 コーシー分布
8.9 大数の法則と中心極限定理
8.10 信頼区間と統計検定
  8.10.1 χ2分布
  8.10.2 t分布
  8.10.3 F分布
  8.10.4 平均値に関する信頼区間推定とt検定
  8.10.5 分散の信頼区間推定とχ2検定
  8.10.6 分散比の信頼区間推定とF検定
8.11 機械学習
  8.11.1 教師有り学習
  8.11.2 教師無し学習
8.12 標準正規分布表
8.13 χ2分布表
8.14 t分布表
8.15 F分布表

付録1 Excelによるデータ分析の方法
  付録1.1 必要な分析ツールのアドイン
  付録1.2 関数とヒストグラムの作成  
  付録1.3 正規確率プロット

付録2 Pythonによるデータ分析の方法
  付録2.1 Pythonを使うための環境の構築
  付録2.2 Pythonと統計・数値解析ライブラリーを使ったデータ分析の例

参考文献
問題の略解
索引