第8章 データ分析実践

データ分析における実務の流れを学ぶ

データ分析における便利機能として、
データテーブル機能
ゴールシーク機能

便利機能を用いることで、分析スピードに雲泥の差が出る。
データ分析は、正確性に加えて、スピードを求められる。

4.1 実務におけるデータ分析の流れ
データ分析の目的は、現状の把握(どのデータが結果に影響しているのか)と、それを基にした将来の予測に大きく分けられる。

4.1.1 現状の把握
現状の把握のためのデータ分析の実務の流れは、下記の通り。

データ探索・可視化が先に来る場合もある。

この流れは、過去から現在までの分析に主眼を置いている。
データクレンジングがデータ収集・加工における加工のメインに成る。

基本統計量やクロス集計、グラフの知識を用いて、データ探索・可視化を行いデータ理解とする。

推測統計学として、確率から回帰分析まで、これらは主に現状把握において活用できる。

(1) ビジネス理解・課題定義

依頼主がどのユオなビジネスを行っているのか
依頼主が何を目指しているのか
依頼主がどんなオペレーションを行っているのか
依頼主が現在抱えている課題はなにか
上記について、回答を得て、理解を深める。

(2) 仮設立案(目的設定)

課題が定義出来たならば、次にカヂあを解決できるか、課題を解決するためにデータをどのように使うべきかを考える。
課題定義を踏まえて、データ分析における目標を設定する。

(3) データ収集・加工
目標設定に基づき、必要な、または関係の有りそうなデータを集める。

データは、量と質が重要となる。
データサイエンスにおいては、ゴミ箱からはゴミしか出ないとされる。

(4) データ探索・可視化
収集したデータを理解し、分析することで、成果を出す。
データを可視化することで、異常値を発見したり、データの全体像を理解しやすく成る。

(5) 現状把握

(6) 仮説検証
可視化したり、データの裏付けをとったりする。客観的検証が必要。

4.1.2 将来の予測
将来の予測は、AI手法で最も人気のある機械学習という分野に分類される。

機械学習は、大量のデータから傾向やパターン、ルールを導き出す学習のフェーズと
導き出したパターンやルールを使って、何かを予測する推論のフェーズ
大きく2段階に分かれる。

推論の前段階(学習を含めた予測の前提が正しいかどうかの検証までを対象としている。)
データを当てはめて機械的に予測を行う。

学習フェーズでは、基本的に入力データと出力データを与えて、両者の関係性を機械に獲得させる。
回帰分析は、説明変数を入力データ、目的変数を出力データとすることができる。

主データに関連するデータとその影響度を基に、ある程度精緻な予測ができるかを確認する。
それが計測・評価のステップである。
学習済みモデルが、実用レベルになっているかを確認することが目的。

ある程度、高精度なモデルにしたならば、それ以上の高精度化は困難な作業となり、コスト高となる。
困難さと精度のトレードオフ、コストパフォーマンスを意識して、目指すべき精度レベルを検討すること。

仮設の検証は、現状把握のためのデータ分析とも共通するステップである。
仮設がどれだけロジカルで正しくしても、本当かは、分からない。

4.2 Excelの便利機能

4.2.1 データテーブル
データテーブル機能は、感度分析に有効な機能である。
感度分析とは、ある条件が変化した時に、その条件に基づく結果がどのように変化するのかを分析する手法である。
価格 個数
500 1,000 500,000
-150,000
計 350,000

(2) データテーブルの使い方

① 変化させたい条件と、条件を変化させた上で求めたい結果をExcelに入力する
② 変化させる条件毎に、変更後の値を洗い出して表にする。
③ ②で作成した表の左上角のセルで①の結果部分を参照する
④ Excelのデータテーブル機能を起動する
⑤ 表示されるポップアップ画面において、①②で入力した内容を設定する。

サンプルデータ6(データ分析実践)

事前準備(1)シート
事前準備(2)シート
事前準備(3)シート