第2章 基礎統計量

データの種類に加え、分析対象データの特徴を掴んだり、データを要約する方法を学ぶ。

2.1 データの種類
数値データ
カテゴリーデータ

2.1.1 数量データ
数量データとは、数値で測ることのできるデータである。
点数や身長、株価などが挙げられる。

2.1.2 カテゴリーデータ
カテゴリーデータとは、数値では計測できないデータのこと。
例えば、血液型や好き嫌いなどグループ名称や感情表現が該当する。

2.2.1 変量データの概要を掴む
大量のデータをただ漠然と眺めていても、それらデータの全体像を把握することは困難である。
与えられた人まとまりのデータのことをデータセットと呼ぶ。

2.2.1 度数分布表とは
度数分布表とは、データの分布を分かりやすく表にまとめたものです。
(1) 階級
度数分布表を作成する。データを表にまとめるために、データを区切る範囲を決める。
この範囲の区切りのことを階級(クラス)または、カテゴリーと呼ぶ。

(2) 階級値
各階級の真ん中の値を階級値と呼ぶ。

(3) 度数
各階級に入っているデータの個数をカウントする。
このカウント数を度数と呼ぶ。
度数は、データの頻度と言い換えることができる。

(4) 相対度数
相対度数とは、その度数が全体に占める割合のことで、以下の式で求める。

相対度数 = 各階級のデータ数
全データ数

(5) 累積度数と累積相対度数
度数と相対度数に加えて、各階級までの度数を合計した累積度数や、その割合である累積相対度数を算出することがある。

2.2.2 ヒストグラム

ヒストグラムとは、度数分布表をグラフにしたものである。
棒グラフなどの集まりで表現される。
ヒストグラムを描くことで、データのばらつきを可視化し、把握しやすく成る。

棒グラフの幅が階級の幅、棒の中央が階級値を示す。
縦軸は度数、または、相対度数にする。

ヒストグラムの縦軸を累積度数にすると、階級ごとの増加率の様子が分かりやすく成る。
異常値があると、ヒストグラムですぐに目立つ。

2.3 基本統計量
データセットが与えられた時に、全体の概要・傾向を掴む方法として、度数分布表やヒストグラムを学習した。
基本統計量とは、データ全体の特徴を一つの値に要約する指標のことである。
記述統計量、要約統計量などとも呼ぶ。
基本統計量を計算することで、データ全体の特徴を掴むことができる。

2.3.1 代表的な値を示す基本統計量
(1) 平均値
平均値とは、サンプルの合計値をサンプル数で割ったものに成る。

平均値 = x1+x2+x3+・・・+xN
N

サンプル数N個のデータセットx1+x2+x3・・・+xNの平均値xは、
上記の計算で求められる。

(2) 中央値
中央値とは、サンプルを大小関係で並べた時に、中央の順位にある値のこと。
中央値を算出するには、サンプルを小さい順から昇順、または大きい順降順に並べる。

(3) 最頻値
最頻値とは、サンプルの中で最もよく出てくる値のこと。
モードとも呼ぶ。

2.3.2 代表的な値を示す基本統計量(平均値、中央値、最頻値)の関係
偏りのある分布の場合、平均値は外れ値に引っ張られるため、多くの場合、外れ値側から平均値、中央値、最頻値の順に並ぶ。
これら3つの値は、データセットの特徴を表す重要な指標となる。

2.3.3 データの種類と代表的な値を示す基本統計量(代表値)

数量データ、並びに数値に置き換えたカテゴリーデータを総称して、数値データと呼ぶ。
数値データの種類によって、基本統計量が変わってくる。
平均値、中央値、最頻値をまとめて代表値と呼ぶ。

(1) 名義尺度
性別や出身地、血液型など、単なる区別・分類のために数値を使う場合、
これを名義尺度と呼ぶ。

名義尺度において、最頻度には意味がある一方、平均値、中央値には意味を持たない。

(2) 順序尺度
順序尺度とは、数値の大小に意味はあるが、それぞれの数値間の差や比率には意味がない尺度のこと。
例えば、スポーツの順位や、上・中・下のレベル分けなどの階層は、順位尺度である。
上下関係においては、大小の意味ありとなる。だが、どれくらい上であるかを示すことはできない。
つまり、差や比率は意味をなさない。

他にはアンケート結果を良し悪し普通で表現することも順位尺度である。
順位尺度の最頻値や中央値には、意味があるが、足し算には意味がないため、平均値に意味はない。

(3) 間隔尺度
間隔尺度とは、大小関係に加えて、差にも意味がある尺度である。ただし、比率には意味がない。

差に意味があるというのは、目盛りが等間隔と言い換えることができる。
温度や西暦、酸性・アルカリ性などが例として挙げられる。

間隔尺度では、中央値や最頻度、平均値に意味を持つ。平均気温など

(4) 比率尺度
比率尺度とは、ゼロが原点として意味を持ち、大小関係に加えて、差・比率にも意味がある尺度のこと。
長さや質量、時間など、物理的に測定できるものの多くは、比率尺度である。

比率尺度は、間隔尺度同様に、最頻度、中央値、平均値の全てに意味がある。

2.3.4 その他の基本統計計算(分散と標準偏差、最大値と最小値)

(1) 分散
分散は、データのばらつき度合いを示す指標である。

① データセットの平均値を算出する。

② 各サンプルについて、偏差を計算する。
偏差とは、平均値からのズレを表し、サンプルの値ー平均値で計算する。

③ 各サンプルの偏差を二乗した上で合計する。
これを偏差平方和と呼ぶ。

偏差の符号は、正、負あり。
偏差を単純合計すると、正負で打ち消し合い、合計がゼロになるため、二乗して、符号を正に揃えてから合計する。

④ 偏差平方和をサンプル数で割る。

例 3400 ÷ 5 = 680
サンプル一つあたりの値を出すことができる。
グループBの分散は、680と計算が出た。

不偏分散というのは、偏差平方和を
サンプル数ー1
で割ることである。
しかし、ビッグデータの場合は、データが大量にあるため、どちらで割っても解に大きな影響はないため、今回は割愛する。

分散 = (個々のデーター平均)2乗の総合計
データの個数

S2乗 = (x1-x平均)2乗 + (x2-x平均)2乗
N

分散は、値が大きいほど、バラつきが大きくなる。

(2) 標準偏差
分散は標準偏差を2乗したものなので、以下の関係が成り立つ。
標準偏差 = √ 分散

分散の尺度は、サンプルの単位の2乗(計算時に偏差を2乗しているため)となっているため、
正の平方根を取ることで2乗されている尺度を元に戻すことができる。

例 √ 680 = 26.08
26.07680962

(3) 変動係数
変動係数とは、標準偏差を平均値で除したものです。
変動係数 = 標準偏差 ÷ 平均値

平均値に対するサンプルのバラつきの関係や、単位の異なるサンプルのばらつきを相対的に評価する際に使う。

2つのグループの標準偏差がどちらも5点だった時、一方のグループの偏差値は10点、もう一方が100点だと、
バラつきの大きさが与える影響は、前者グループの方が大きいと考えられる。
このような場合は、標準偏差ではなく、変動係数同士を比べることが有効である。

(4) 最大値と最小値
最大値は、データセットの中で最も大きい値、最小値は最も小さい値となる。
最大値・最小値は、それぞれがデータセットの特徴を一つの値で要約しているので、基本統計量の一つとなる。

2.3.5 Excelを用いた基本統計量算出の操作
サンプルデータ2(基本統計量)を使って、基本統計量を算出する関数を紹介する。

(1) 平均値の算出

平均値の算出には、
average関数
を使う。

(2) 中央値の算出
中央値の算出には、
median関数
を使う。

(3) 最頻値の算出
mode関数

(4) 分散の算出
VAR.P関数

(5) 標準偏差の算出
sqrt関数
または、
STDEV.P関数

(6) 最大値の算出
max関数

(7) 最小値の算出
min関数

あわせて読みたい