• ニュースメール
  • アフターサービス
  • 教科書献本のご案内
  • facebook
  • 構造計画研究所

テキストアナリティクス

書籍情報
シリーズ名統計学One Point 【10】巻
ISBN978-4-320-11261-2
判型A5 
ページ数224ページ
発売日2018年08月31日
本体価格2,300円
テキストアナリティクス 書影
テキストアナリティクス

新刊

 本書は,テキストの電子化から始め,テキスト分析のための事前処理,目的に合わせた分析項目の集計方法およびそのテキストの分析方法などについて,例を織り込みながら,テキスト分析に関わる統計的データ処理や機械学習的手法について平易に解説している。
 テキストにおける法則と指標,テキストの特徴分析,テキストのクラスター分析,テキストの分類分析,テキスト関連の予測や要因分析に分けて,伝統的な方法から最新の方法まで順を追って解説している。例えば,特徴分析では主成分分析,対応分析などの統計的データ分析法から始め,NMF(非負行列因子分解)分析やトピックモデルなどの機械学習的手法まで,分類分析では線形判別,マハラノビス距離判別分析,ナイーブベイズ判別分析などの伝統的判別分析法からサポートベクターマシン,ランダムフォレスト,深層学習を含むニューラルネットワークなど最新の機械学習方法およびその統合分析まで扱っている。
 分析の方法に関しては,簡潔にその考え方とアルゴリズムを示すことで,読者が全体像をつかむように工夫した。例で用いたデータはネットから入手でき,本書中のスクリプトを実行することに主な手法の分析方法の理解をより深めることができる。

目次

第1章 テキストアナリティクス
1.1 テキストアナリティクスとは
1.2 テキストアナリティクスの諸相
  1.2.1 テキストアナリティクスの由来
  1.2.2 計量文体学
  1.2.3 計量言語学とコーパス言語学
  1.2.4 情報・社会科学
1.3 テキストアナリティクスの手順

第2章 テキストアナリシスのための前処理
2.1 電子化とテキストの収集
2.2 テキストのクリーニングと正規表現
  2.2.1 テキストエディタ
  2.2.2 正規表現
2.3 プログラミング言語
2.4 テキストの処理
  2.4.1 形態素解析
  2.4.2 構文解析
2.5 要素・項目の集計
  2.5.1 n-gram統計モデル
  2.5.2 特徴ベクトル

第3章 テキストデータの視覚化
3.1 棒グラフと折れ線グラフ
3.2 ワードクラウド
3.3 格子グラフ
3.4 ネットワークプロット
  3.4.1 ネットワークの統計量
  3.4.2 コミュニティ分析
3.5 テキストにおけるネットワーク分析

第4章 法則と語句の重みおよび特徴語句抽出
4.1 ジップの法則
4.2 語彙の豊富さ
  4.2.1 延べ語数と異なり語数を用いた指標
  4.2.2 頻度スペクトルを用いた指標
4.3 語句の重み
  4.3.1 ブーリアン重み付け
  4.3.2 頻度重み付け
  4.3.3 TF-IDF重み付け
  4.3.4 エントロピー重み付け
  4.3.5 相互情報量による共起頻度の重み付け
4.4 特徴語句の抽出
  4.4.1 カイ二乗統計量
  4.4.2 外的基準の利用

第5章 テキストの特徴分析
5.1 特徴分析のデータの形式
5.2 特異値分解
5.3 主成分分析
  5.3.1 主成分と寄与率・累積寄与率
  5.3.2 主成分得点
  5.3.3 主成分分析の例
5.4 対応分析
  5.4.1 固有値分解と対応分析
  5.4.2 対応分析の例
5.5 潜在意味解析
5.6 確率潜在意味解析
  5.6.1 pLSAとは
  5.6.2 pLSAの分析例
5.7 トピックモデルLDA
  5.7.1 LDAとは
  5.7.2 LDAの分析例
  5.7.3 トピックモデル
  5.7.4 トピックの数について
5.8 NMF分析
  5.8.1 基本アルゴリズム
  5.8.2 NMF分析の例
5.9 その他の方法

第6章 テキストのクラスター分析
6.1 類似度と非類似度
  6.1.1 量的データの類似度
  6.1.2 名義尺度の類似度
  6.1.3 多値名義尺度
6.2 非類似度と距離
  6.2.1 量的データの距離
  6.2.2 相対頻度データの距離
6.3 階層的クラスタリング
  6.3.1 階層的クラスタリングのプロセス
  6.3.2 階層的クラスタリングの流れ
  6.3.3 階層的クラスタリングの方法
6.4 クラスターのヒートマップ
6.5 非階層的クラスタリング
6.6 クラスターの数の決定方法

第7章 テキストの分類と判別分析
7.1 分類と判別分析
  7.1.1 線形判別分析
  7.1.2 ベイズ判別分析
  7.1.3 ロジスティック判別分析
  7.1.4 k近傍法
7.2 サポートベクターマシン
  7.2.1 サポートベクターマシンの基本定式
  7.2.2 カーネル法
7.3 ツリーモデル
7.4 アンサンブル学習
  7.4.1 ブースティング
  7.4.2 ランダムフォレスト
7.5 ニューラルネットワーク
  7.5.1 ニューラルネットワークとは
  7.5.2 階層ニューラルネットワーク
7.6 モデルと結果の評価
  7.6.1 交差確認法
  7.6.2 分類結果の評価指標
7.7 いくつかの分類器の比較
  7.7.1 スパムメール
  7.7.2 文章の著者の識別
7.8 統合的分析
  7.8.1 統合的分類アルゴリズム
  7.8.2 用いるコーパスとデータセット
  7.8.3 書き手の特徴データ
  7.8.4 用いる分類器
  7.8.5 評価方法
  7.8.6 分類器ごとの判別結果
  7.8.7 統合的判別の結果

第8章 テキストデータによる予測と要因分析
8.1 テキストの経時的分析
8.2 重回帰分析
  8.2.1 重回帰分析の定式
  8.2.2 変数の選択
  8.2.3 執筆時期の推定
8.3 正則化回帰モデル
  8.3.1 ridge回帰モデル
  8.3.2 lasso回帰モデル
  8.3.3 elastic net回帰モデル
  8.3.4 正則化回帰モデルによる執筆時期の推定
8.4 その他の回帰分析
  8.4.1 サポートベクター回帰
  8.4.2 回帰木とランダムフォレスト
  8.4.3 いくつかの回帰分析の結果の比較

参考文献
索  引