第3章 クロス集計

データの関係性として相関を、表にして考えるクロス集計表について学習する。
クロス集計表をマスターすれば、分析の幅が一気に広がる。

3.1 2変数のデータの概要を掴む
基本統計量とは、データの変数が1つの場合に、そのデータセットがどんな特徴を持っているのかを表すための指標となる。

クロス集計表では、変数を2つ以上に増やして行う。

例 気温とアイスの売上の相関関係
数学の成績と英語の成績の相関関係
さまざまな組み合わせを調べることができる。
2つの変数がどのような関係にあるのか、関係性を示す指標を調べる。

3.1.1 散布図
散布図とは、横軸に変数A、縦軸に変数Bを取って、データを座標の点として表したものである。
散布図を描くことにより、2つの変数の関係を可視化することができる。

散布図を描くことで、2つの変数間のおおよその関係を掴むことができる。
1つの変数を扱う時に、ヒストグラムを描いたように、散布図を描くことで、データセットの中に異常値が含まれているかどうかを
視覚的に確認することもできる。

3.1.2 相関
(1) 相関係数とは
相関とは、2つの変数間の直線的な関係である。
一方の変数が大きくなると、もう一方の変数も大きくなるような2つの変数の関係を正相関と呼ぶ。
一方の変数が大きくなると、もう一方の変数は小さくなるような2つの変数の関係を負相関と呼ぶ。

相関係数 =

∑ シグマと読む。


iが1からnの値を取る時のすべてのxiを足し算するという意味。

上記の公式は、2つの変数xとyの偏差の掛け算の総合計を、変数xの標準偏差と変数yの標準偏差の掛け算で割ったものになっている。

(2) 相関係数と相関の強さ
相関係数は、相関の強さを-1から1の範囲で示す。
正相関の場合は、相関係数>0となる。
負相関の場合は、相関係数<0となる。

相関係数の絶対値が大きいほど、(1に近いほど)、2つの変数間の相関は強いと言える。
一方で、相関係数がこの値以上であれば、相関関係があると断言できる統計学的基準は皆無である!!!

表3.1 相関係数の絶対値と相関の強さ

相関係数の絶対値相関の強さ
1完全な相関関係にある
0.7以上、1未満強い相関がある
0.4以上、0.7未満やや強い相関がある
0.2以上、0.4未満やや相関がある
0以上、0.2未満ほとんど相関がない
(0の場合=相関がない)

さらに細かく分けて、0.9以上、1未満を非常に強い相関があるとする分け方もある。
逆に、大まかに分けて、0.5以上であれば、相関有り、0.2未満であれば、相関なしとする場合もある。

(3) 相関がないの意味
相関とは、直線的な関係を表すものである。
逆に2つの変数間で直線的でない関係がある場合、その関係を相関係数で知ることは出来ない。!!!

・相関係数が0に近い場合、2つの変数に直線的な関係がないと言えるが、
例えば、2次関数のような曲線関係など、直線関係以外の関係にある可能性は、否定できない。

・無関係な変数同士ー>相関係数は0に近いは、常に成り立つが、
相関係数が0に近いー>変数同士は無関係とは、常に断言でいない。

図3.2の1行目は、相関係数と相関の強さを図で表したものである。
相関関係の絶対値が大きいほど、2つの変数が直線的な関係にあることが視覚的によく分かる。

図3.2の2行目は、2つの変数間の直線関係の傾きは相関係数に関係がなく、相関係数はあくまでも直線関係にあるこかどうかだけを
示している。

図3.2の3行目は、直線関係以外の関係にある場合の散布図を示しており、直線関係にはないため、相関関係はゼロと成る。

(4) 相関関係と因果関係
2つの変数間に相関関係がある場合、その2つの変数間には、因果関係も有ると誤解されるケースが有る。
相関関係:2つの変数間の直線的な関係
因果関係:原因と結果の関係

数学の点数と英語の点数の間に相関関係があったとしても、数学UPで英語もUPとか、逆に英語DOWNで数学もDOWN
という因果関係が成立するかは断定できない。
因果関係は別物と考えるのが妥当である。

(5) Excelを用いた相関係数の計算
Excelで相関関係を計算するには、CORREL関数を用いる。
CORREL(データセット1,データセット2)

2つのデータセットに含まれるデータの数は等しくある必要はない。
ただし、対応するデータを2つのデータセットに同じ順番で格納しておく必要がある。

3.1.3 共分散
(1) 共分散とは
相関係数の公式は、以下となっている。

共分散は、2つの変数の広がりの程度を示す。
正の相関がある場合には、共分散>0となる
負の相関がある場合には、共分散<0となる。
ただし、共分散からは、相関の強弱はわからない。

(2) Excelを用いた共分散の計算
Excelで共分散を計算するには、COVARIANCE.P関数を用いる。

COVARIANCE.P(データセット1,データセット2)

設定した2つのデータセットに含まれるデータの数は、等しい必要がある。
また、対応するデータを2つのデータセットに同じ順番で格納しておく必要がある。

3.2 単純集計表とクロス集計表

3.2.1 単純集計とクロス集計
項目(変数)が2つ以上ある元モデルから、ある2項目を抽出し、一方を行(縦軸)、
もう一方を列(横軸)に取り、両方が交わる(クロスする)部分のデータを衆右傾する手法を
クロス集計と呼ぶ。

ブランド名が一つにまとめられている集計の仕方を単純集計と呼ぶ。

3.2.2 クロス集計を使うメリット
クロス集計では、データを分析する際の重要なテクニックの1つである。
単純集計では、単に総計の差がわかるだけである。
クロス集計では、ブランド毎に比較ができる。
分析対象を細分化できる点が、クロス集計を用いるメリットである。

3.3 ピボットテーブル

3.3.1 集計表作成のステップ
Excelで集計表を就くには、Excelの挿入タブにあるピボットテーブル機能を使う。

1 集計対象を選択
2 Excelの挿入タブにあるピボットテーブルを選択
3 ピボットテーブルレポートの配置先を選択
4 抽出する項目、集計対象データを決定
5 集計方法をデータの個数に設定

3.2.2 集計表作成のExcel操作手順

(1) 集計対象データを選択
集計対象のデータ範囲を選択する

(2) Excelの挿入タブにあるピボットテーブルを選択

(3) ピボットテーブルレポートの配置先を選択
(4) 抽出する項目、集計対象データを決定

(5) 集計方法をデータの個数に設定

ピボットテーブルでは、データの件数を数える集計表だけではなく、それぞれの行と列の条件を満たす別項目の合計値や
平均値を記載した表も作成可能である。

3.3.3 ピボットテーブルの便利機能

(1) フィルタ
選択した項目の要素ごとにピボットテーブルを作成可能と成る。

(2) ドリルダウン
クロス集計に代表されるピボットテーブルは、特定の項目に着目して、データを表にまとめたもの。
こうした表は、深堀り(ドリルダウン)ができる。

(3) フィールドのグループ化
行フィールドや列フィールドの項目を、特定の項目でグルーピングすることをグループ化と呼ぶ。

(4) データの更新
ピボットテーブルを作成したあと、素の集計対象データで値変更を加えたならば、
その変更をピボットテーブルにも反映させる必要がある。
ピボットテーブル内の任意のセルを選択して、右クリックして、更新を押せば、ピボットテーブルの値も更新される。

(5) データの絞り込み
ピボットテーブル内の任意セルを選択して、分析タブのスライサの挿入を選択する。
絞り込みたい項目を選ぶ。

ピボットグラフ
3.4.1 集計データのグラフ化
ピボットテーブルで集計されたデータを使ってグラフを作ることができる。
ピボットグラフを使うことの利点は、ピボットテーブルが変更された時に、連動してピボットグラフも変更することができる

あわせて読みたい