データスマート Excelではじめるデータサイエンス入門

データスマート Excelではじめるデータサイエンス入門

試し読み
データスマート Excelではじめるデータサイエンス入門

米Amazonでのトップセラーが待望の日本語化。Excelでデータサイエンスの本質を学ぶ!

トップスタジオ 訳/W・フォアマン ジョン 著
B5変形判 / 464P
ISBN978-4-8443-6676-8 / 価格(本体3,800円+税)※電子版の価格は販売ストアにて
2017年08月25日発売

データサイエンスは、データをただ眺めたり、単純に集計するだけでは見えてこない、価値のある共通点や傾向などをデータから探し出す技術です。勘やひらめきではなく、データに基づくマーケティング活動が重視される現代のビジネスにおいて、意思決定の基盤にもなりつつあります。本書は、このように今後ますます重要性が増してくるデータサイエンスに初めて触れる方のための入門書です。最大の特徴は、ビジネスパーソンにとって最も身近なツールであるExcelを使う点。Excelファイルの元データをダウンロードして、解説を読みながら手元のパソコンで一歩ずつ分析を進めていけるので、高度なデータサイエンスの手法とその意味を順を追って理解できます。取り上げている手法も、クラスター分析・教師なし機械学習・線形プログラミング・教師あり機械学習・アンサンブルモデル・予測モデリング・外れ値検出といった実践的なもの。本当の意味で「データを扱う技術」を身に付けたい方に、まず手にとっていただきたい一冊です。

twitter facebook このエントリーをはてなブックマークに追加 RSS

ページイメージ

クリックすると折りたためます
■ページ見本










目次

クリックすると開きます

【目次】
■第1章 今さら人に聞けないスプレッドシートについて必要な知識
いくつかのサンプルデータ
[Ctrl]キーですばやく移動
式とデータをすばやくコピー
セルの書式
値の形式を選択して貼り付け
グラフの挿入
検索と置換メニューへのアクセス
値の検索と取得の式
VLOOKUPを使用したデータの統合
フィルターと並べ替え
ピボットテーブルの使用
配列数式の使用
ソルバーで値を求める
OpenSolver:使わないに越したことはありませんが、ここでは必要です
Wrapping Up


■第2章 クラスター分析パートI:k平均法を使用した顧客ベースの区分
女子は女子と踊り、男子は肘に傷を作る
現実的な題材:電子メールマーケティングの購読者に対するk平均法クラスタリング
  ジョーイ・バッグ・オードーナッツ・ホールセール・ワイン・エンポリアム
  初期のデータセット
  測定する項目の決定
  ユークリッド距離:直線距離で距離を測定
  全員に対する距離とクラスターの割り当て
  クラスターの中心を求める
  結果の意味の確認
  クラスターごとの上位の売り出しの確認
  シルエット:さまざまなk値を除外できる優れた方法
  クラスターを5つにした場合、どうなるでしょうか。
  5つのクラスターの解決
  5つのすべてのクラスターの上位の売り出しを確認
  5平均法クラスタリングのシルエットの計算
kメディアンクラスタリングと非対称の距離測定
  kメディアンクラスタリングの使用
  より適切な距離の測定基準の選択
  Excelでこれらを処理する
  5メディアンクラスターの上位の売り出し
Wrapping Up


■第3章 ナイーブベイズとその単純さゆえの驚くべき軽量性
製品にMandrillという名前を付けたら、信号とともにノイズが返されることに
世界最短の確率論の入門
  条件付き確率の合計
  複合確率、連鎖法則および独立性
  依存性のある状況での確率値
  ベイズ法
ベイズ法を使用したAIモデルの作成
  高いクラスの確率もしばしば等しいものと仮定される
  その他の2つの作業
Excelのパーティを始めましょう
  無関係な句読点の削除
  スペースで区切る
  トークンのカウントと確率の計算
  モデルの完成です! 活用しましょう
Wrapping Up


■第4章 最適化モデリング:「新鮮な絞りたて」のオレンジジュースがブレンドされているはずがない
データサイエンティストが最適化を必要とする理由
手始めの簡単な取捨選択問題
  問題を多面体として表現
  レベル集合の移動による解決
  シンプレックス法:各角の周囲を移動
  Excelでの作業
  本章末のモンスター級の問題
果樹園からグラスへの新鮮さ※ブレンディングモデルのブレイクタイム
  ブレンドモデルの使用
  特定の仕様から始める
  一貫性への回帰
  Excelへのデータの入力
  ソルバーでの問題の設定
  基準の緩和
  死んだリスの駆除ミニマックスの定式化
  If-Thenおよび“ビッグM”制約
  変数の乗算:制限を超えた使用法
リスクのモデル化
  標準的に分布しているデータ
Wrapping Up


■第5章 クラスター分析パートII:ネットワークグラフとコミュニティー検出
ネットワークグラフとは
単純なグラフの視覚化
Gephiの簡単な紹介
  Gephiのインストールとファイルの準備
  グラフのレイアウト
  ノードの次数
  美しい印刷
  グラフデータの操作
ワインの卸売りデータからのグラフの作成
  コサイン類似度行列の作成
  r-近傍グラフの作成
エッジにはどれくらいの価値があるか:グラフのモジュール性でのポイントとペナルティー
  ポイントとペナルティーとは
  評価値シートの設定
クラスタリングを始めましょう
  分割その1
  分割その2
  そして…分割その3
  コミュニティーの符号化と分析
Gephiへ再訪問:冒険物語
Wrapping Up


■第6章 初期の教師あり人工知能―回帰
えっ、妊娠しているのですか?
自分を軽んじるな
RetailMartで線形回帰を使用して妊娠している顧客を予言する
  特徴セット
  訓練データの収集
  ダミー変数の作成
  独自の線形回帰を作成する
  線形回帰統計:R二乗、F検定、t検定
  特定の新しいデータについて予測を行い、性能を測定する
RetailMartでロジスティック回帰を使用して妊娠している顧客を予言する
  まずリンク関数が必要
  ロジスティック関数の導入と最適化
  実際のロジスティック回帰の作成
  モデルの選択―線形およびロジスティック回帰の性能の比較
Wrapping Up


■第7章 アンサンブルモデル:大量のまずいピザ
第6章のデータを使用
バギング:シャッフルと訓練を繰り返す
  決定株は愚かな予測器の呼び名としては魅力に欠ける
  そこまでは愚かに見えない
  もっと力が必要だ
  訓練しよう
  バギングを行ったモデルを評価する
ブースティング:間違えたら、とにかくもう一度ブースティングしよう
  モデルを訓練する̶すべての特徴をターゲットに
  ブースティングモデルを評価する
Wrapping Up


■第8章 予想:当たらなくても一息ついて落ち着こう
剣の販売で大忙し
時系列データについて知る
単純な指数平滑法からゆっくり始める
  単純指数平滑法による予想の準備をする
傾向があるかもしれない
ホルト傾向補正指数平滑法
  シート上でホルト傾向補正平滑法の準備をする
  これで終わり? 自己相関を確認する
ホルト・ウィンタース乗法指数平滑法
  基準値、傾向値、季節指数の初期値を設定する
  予想に取り掛かる
  そして最適化する
  もうひとふんばり
  予想の周囲に予測区間を描く
  効果を得るためにファンチャートを作成する
Wrapping Up


■第9章 外れ値の検出:外れているからといって重要でないわけではない
外れ値も人間である(たとえ悪人であっても)
ハドラム夫妻間の面白い訴訟事件
  テューキーの箱ひげ図
  テューキーの箱ひげ図をスプレッドシートで適用する
  このような単純な手法の限界
クビにはならない、でもすべて悪い
  グラフ化するデータを準備する
  グラフを作成する
  k近傍を求める
  グラフの外れ値検出方法1:入次数を使う
  グラフの外れ値検出方法2:k-距離で微妙な違いを出す
  グラフの外れ値検出方法3:局所外れ値因子の要点
Wrapping Up


■第10章 スプレッドシートからRに移行する
Rの準備と実行
  簡単な手入力
  Rでデータを読み込む
実際のデータサイエンスを行う
  ワインデータを使用した球面k平均法
  妊娠データを用いたAIモデルの作成
  Rを使った予想
  外れ値を検出する
Wrapping Up