本書の特徴

本書は、Excelを使って学ぶデータサイエンスの入門書です。
クラスター分析・機械学習・予測・外れ値検出といった実践的な手法がサンプルデータの分析を通じて身につきます。

サンプルデータ付き!

ダウンロードしたサンプルデータをもとに手を動かしながら分析を学べます

実践的な手法を紹介!

データサイエンスの現場でよく使われる実践的な手法を紹介しています

コードの知識は不要!

Excelでセルを数式で埋めながらステップ・バイ・ステップで学習を進めます

R言語への橋渡しも!

最終章ではExcelで行った解析をR言語で試すので、より実務的な環境へもスムーズに移行できます

簡単な事例

Excelでどのような分析を行うのか、本書に練習用として掲載されたとても簡単な事例を見てみましょう。
ぜひExcelを起動して挑戦してみてください。

Image

銃とバターをどれだけ作る?

時は第二次世界大戦中の1941年、あなたは空からドイツ軍占領下のフランスに侵入しました。そこではジェレミー・ ガリンドーというフランス人酪農業者として認識されています。

昼の仕事:牛の乳を搾り、甘くてクリーミーなバターを地元の住民に売る。
夜の仕事:機関銃を製作して、フランスのレジスタンスに売る。

司令部との連絡は途絶えており、ナチスに捕まる危険を避けながら、自分の裁量で農場を運営し続けなければなりません。現在の状況をまとめた結果、次の3つの要素で表せることがわかりました。

  • 目標:機関銃を連絡係のピエールに1丁売ると、195ドルの収入になる。バターは1トンあたり150ドルの収入になる。農場を存続するために毎月できるだけ多くの収入を得る必要がある。
  • 決定:合計の利益を最大化するために、毎月銃を何丁、バターを何トン生産すればよいかを計算する。
  • 制約:バター1トンを生産するためのコストは100ドル、機関銃1丁は150ドルかかる。毎月1,800ドルの予算があり、新しい製品の生産に充てられる。ただし、バターと機関銃の貯蔵庫のスペースは21立方メートルしかなく、銃は0.5立方メートル、バター1トンは1.5立方メートルのスペースを占める(つまり、利益率の良いバターのみを生産しても貯蔵庫に収まりません。バターを貯蔵庫の外に置くと腐ってしまい、銃を外に置くとナチスに捕まります)。

Excelのシートを作る

空白のExcelを開いたら、セルB1に「目標」である総収入を表示するため、まずはA1にラベルを入力します。
さらにB4とC4に生産量を表示します。これは「決定」の変数としてあとでソルバーで求めるので、ひとまず1を入力しておきましょう。
列6〜9に、銃とバターの生産単位あたりの貯蔵サイズ・生産コスト・収入を入力します。さらに、貯蔵スペースと月額コストの上限もまとめておきます。
最後に「制約」と収入を計算する数式を入力します。「制約」の計算には[使用済み]の列Eに入力します。銃とバターの生産数と貯蔵量をかけ合わせる数式をE7に、生産数とコストをかけ合わせる数式をE8に入力しましょう。ソルバーではこれらの値が[上限]を超えないように決定変数を決めます。
収入はB1で、生産数と収入をかけ合わせます。
各セルに入力する数式は次のとおりです。

E7セル:=SUMPRODUCT(B4:C4,B7:C7)
E8セル:=SUMPRODUCT(B4:C4,B8:C8)
B1セル:=SUMPRODUCT(B4:C4,B9:C9)

Image
Image

ソルバーで生産数を求める

ソルバーに目標・決定・制約を設定します。目標は、B1の収入セルです。[最大値]ラジオボタンを選択していることを確認してください。
決定は、B4:C4にあります。これらをソルバーウィンドウの[変数セルの変更]セクションに追加しましょう。
制約については、追加しなければならないものが3つあります。貯蔵庫の制約(E7≦D7)と予算の制約(E8≦D8)、銃とバターの生産数を整数にする制約(B4:C4=整数(int))です(1.2丁の銃は作れませんよね)。
[制約のない変数を非負数にする]ボックスをオンにして、生産数がマイナスの値にならないようしたら、[シンプレックスLP]アルゴリズムが選択されていることを確認して[解決]をクリックします。
※ソルバーを利用するにはアドインの有効化が必要です。Windowsの場合は[ファイル]→[オプション]→[アドイン]とクリックし、[管理]で[Excelアドイン]を選択して[設定]ボタンをクリックします。[アドイン]ダイアログで[ソルバーアドイン]にチェックを入れて[OK]をクリックすれば[データ]タブにソルバーが表示されます

最適な生産数が算出される

[解決]をクリックすると、Excelによって即座に問題の解が求められ、結果を表示するボックスがポップアップします。[OK]をクリックして解を採用すると、銃を4丁、バターを12トン作れば、利益が2,580ドルとなることがわかりました。予算はすべて使い切ってしまいましたが、貯蔵庫にはまだ1立方メートルの余裕があります。

では、毎月5丁以上の機関銃を納めたら、連絡係のピエールから500ドルの追加料金をもらえるとしたら、最適な生産数はどう変わるでしょうか?──続きはぜひ本書でお確かめください。

Image

本書のレッスン

実際に本書の中で取り組む課題は、もっと複雑で実践的なものです。

顧客のワインの好みを類推する

宣伝メールを顧客に送信しても、顧客のニーズにあっていなければ開封されません。そこでジョーイ・バッグ・オードーナッツ・ホールセール・ワイン・エンポリアム社では、自社の顧客がどのようなワインを好む傾向があるかについて、ワインの顧客別売上データから調査することにしました。
顧客の嗜好をいくつかのクラスターに分類し、クラスターごとの上位売上キャンペーンをチェックして、そのクラスターの嗜好を読み解きます。図は数量の少ないキャンペーンを好むクラスターと類推できますが、ほかにどのようなクラスターが存在するのでしょうか?

Image

自社製品に関するツイートを機械学習で見つけ出す

MandrillというWebアプリケーションをリリースしたものの、Twitterで評判を調べようとしたら、動物や商品と無関係な音楽グループ等のツイートがたくさんあり、自社サービスのツイートを探し出すのが大変です。そこでExcelにツイートを貼り付けて、そのデータを機械学習させることで、「APP(アプリケーション)」と「OTHER(その他のツイート)」を自動的に判別できるようにします。さて、Excelでどれくらいの精度で見分けることができるでしょうか?

Image

品質を一定に保つオレンジジュースの最適な混合比率を算出する

あなたはJuiceLandという飲料メーカーで働く分析官で、上司から第4四半期のオレンジジュースの仕入れ計画を提出するよう求められました。JuiceLandのオレンジジュースは、複数の産地からオレンジジュースを輸送し、それらを混合させることで、コストを抑えつつ品質を一定の基準内に保っています。需要量は1月と2月が60万ガロン、3月は70万ガロンが見込まれます。各産地のオレンジジュースの酸味や渋み、色などの特性を把握し、自社の基準内に収まる混合比率と仕入れ量を決めなければなりません。
ただし、上司はさらにコストを抑えるよう命令してきますし、供給チェーンチームも供給元を増やさないようにプレッシャーを掛けてきます。はたしてみなが納得する仕入れは行えるのでしょうか?

Image

商品購買履歴からもうすぐ赤ちゃんが生まれる家庭を見つけ出す

あなたは大手スーパーチェーンの本社で乳幼児向け商品のマーケティングマネージャーを担当しています。新米の両親は一度赤ちゃん向けの商品を買うと、その販売店から購入を続けていく傾向があります。そこで、その家庭に赤ちゃんが生まれる前から、おむつや軟膏のクーポンを届けるといったマーケティング活動を行います。では、いったいどのような商品を購入した家庭が、妊婦のいる可能性が高いのでしょうか?
商品のリストは「妊娠検査器具」から「マタニティーヨガのDVD」、「抱き枕」、「禁煙用品」、「ワイン」まで多岐にわたります。購入履歴と商品リストから、その家庭に妊婦がいる確率を機械学習で予測します。

Image

過去36ヶ月の売上データから今後12ヶ月の売上を予測する

あなたは手作りの玩具をAmazon、eBay、Etsyなどのネットショップで売りはじめました。口コミで評判が上がり、ビジネスは大いに繁盛しています。これまでは手持ちの資材で需要に応えてきましたが、慌ただしい状況が続いています。そこで、資材調達をスムーズに行うため、将来の需要を予測することにしました。
手元にあるのは過去3年の売上データです。このデータから今年1年の売上を予測します。ここまでの売上増加のトレンドに加え、クリスマスシーズンなどの周期性のある需要も考慮します。

Image

最低限のことしかやらない不良従業員を探し出す

あなたは巨大コールセンターの管理者です。顧客から電話、電子メール、チャットが来るたびにチケットが作成され、従業員は少なくとも1日140枚のチケットを処理することが求められます。対応終了時に顧客が従業員を5つ星で評価し、平均で2を下回ると解雇です。
さらに各従業員が何度遅刻したか、病欠を何回取ったか、研修どれくらい受けたか、シフト交換に何回応じたかなどの追跡データも保持しています。解雇基準には達していないものの、追跡データから勤労意欲に欠ける従業員が存在するかどうかを見てみましょう。

Image

米アマゾンでの評価

本書の原版である『Data Smart: Using Data Science to Transform Information into Insight』は米アマゾンにて非常に高い評価を受けています。

ご購入はこちら

本当の意味で「データを扱う技術」を、ぜひ本書で身に付けてください。