第1章 ビッグデータとデータの前処理

データ分析は、データの質に大きく左右される。
データ分析の前処理として、データをすぐに分析可能な状態にしておくことは重要である。

データサイエンティスト/データサイエンスとは?

データサイエンスとは、データサイエンス力、データエンジニアリング力をベースにデータから価値を創出し、ビジネス課題に答えを
出すプロフェッショナルと定義。

データサイエンティストのスキルセットは、3つの力を挙げる。

1.ビジネス力 business problem solving
課題背景を理解した上で、ビジネス課題を整理し、解決する力
2.データサイエンス力 data science
情報処理、人工知能、統計学などの情報科学系のち絵を理解し、使う力
3.データエンジニアリング力 data engineering
データサイエンスを意味のある形に使えるようにし、実装、運用できるようにする力

本講座では、データサイエンス力としての統計学、データエンジニアリングとしてMicrosoft Excelをツールとしたデータ分析力を身につける
ことを目標とした入門講座である。

データ取得が容易になった要因は、以下の2つある。
1 インターネットの浸透
2 IoTの進展

データ取得が容易になっただけでなく、取得されるデータの種類も多種多様となった。

ビッグデータとは?
ビッグデータの定義
ビッグデータは、巨大なデータ群を指し、
典型的なデータベース・ソフトウェアが把握し、蓄積し、運用し、分析できる能力を超えたサイズと定義する。
サイズ的には、数十TBから数PBとされる。

データの種類は、2種類ある。
構造化データと非構造化データ。
構造化データは、整理しやすいデータで、ExcelやCSVなどで行と列の二次元に並べたデータ

非構造化データは、画像や動画、文章など。データ内に規則的な区切りはあるが、二次元化しにくい半構造化データもあり、jsonファイルやHTMLタグ形式が
該当する。

ビッグデータの特性
ビッグデータの質的な定義、ビッグデータが持ちうる特性
3つのVがある。
Variety
Volume
Velocity
Variety データの多様性のこと。データはテキスト、音声、画像、動画など多種多様な情報であり、様々なファイル形式を持つ。

Volume データ量のこと。
ビッグデータというその名の通り、データ量は膨大と成る。
IoT機器を通じて、ある機械の稼働状況を1秒間に1回摂取する場合、
これを1年間続けると、データ量は、3000万レコード超えとなる。

Velocity データが生成される速度や頻度のこと。
秒単位や、リアルタイムデータの取得など、高頻度データ生成がある。

ビッグデータの活用
ビッグデータは、分析対象として用いられた時に価値が発揮される。

データ分析とAI
1 収集
2 蓄積
3 分析
4 動作

人工知能は、データを分析して、傾向やパターンを読み取ることがベースとなる。

データの前処理

データの前処理とは、データのクレンジングとも呼ばれる作業で、データの品質を上げる作業のこと。
データ分析を行うためのもの(実施がマスト)
データ分析を改善させるためのもの(実施がベター)

本講座が扱うのは、データ文s型を行うためのものとなる。
欠損値
外れ値
表記揺れ
上記に関する処理について学習する。

Excelにおけるデータクレンジング

■1 プロセスの記録
データクレンジングは、元のデータを別のデータ/表記に置き換えることがメインと成る。
Excelには、検索と置換という条件を満たすデータを新しく指定したデータに置き換える機能がある。
ただ、それを使うと、クレンジングの作業プロセスを記録(ログ)として自動で残すことができない。

データ分析において、誰か別の人が作業をしても、同じ結果が得られること、客観性や再現性があることが重要である。
作業の過程をできるだけ残すように意識する必要がある。
PythonやRといった統計解析に用いられるプログラミング言語では、プログラミングコードやログを残すことができる。
本講座では、Excel関数を使った作業プロセスを残すことのできるクレンジング作業を説明する。

■2 通し番号の挿入
分析対象のデータに通し番号が含まれていない場合は、一番左に通し番号の列を作っておく。
通し番号があると、行の管理ができる。データ数の確認、データの並び替えの基準にも使える。

① 分析対象データの左端に列を挿入し、空白列を作る。
② 列のタイトルは通し番号やNo.と名付けておく。
③ データの①行目に1,2行目に2を入力
④ セルの右下の隅にカーソルを当て、十字キーになったところで、ダブルクリックすると
最終行まで一気に通し番号が自動入力されて便利である。

1.3.3欠損値
値の抜け落ちたデータを欠損値という。 NaN,N/A,空欄など
大量のデータの中には、欠損値が含まれていることがよくある。
データの中に欠損値があると、分析に支障となるため、対処が必要である。

(1) 欠損値の有無の確認
欠損値がデータに含まれているか確認する。
Excelのステータスバーで確認するのが便利である。

ステータスバーを右クリックすると、表示項目を選択できる。
平均、データの個数、数値の個数、最大値、最小値、合計のチェックを入れておく。
1列目が列名の場合、2行目からデータとなるため、数値の個数+1がデータの個数となる。

(2) 欠損値の存在が確認できた時、対処方法は、取り除く、保管するの2つに大きく分けられる。
■欠損値を取り除く
欠損値が多い場合は、データ不足にあんってしまったり、必要な情報まで失うことがある。
・欠損値を含む行全体を削除する。
・フィルター機能を使って欠損値を取り除く
プロセス記録の観点から、2つ目のフィルターを書ける方法が良い。
フィルター機能を使うことで、抽出または、除外する行を指定することができる。

① フィルターをかける
対象データの任意のセルを選択して、データタブのフィルターボタンを押す。
フィルタの選択がボタンが表示される。

② 欠損値を非表示にする。
欠損値(N/A) のチェックを外す。

■欠損値を置き換えて補完する
欠損値を何らかの数字を用いて、一括して欠損値を置き換える。
空白の欠損値を調べるには、IF文とISBLANK関数を用いる。

欠損値を置換する。

外れ値
他のデータから大きくハズレた値を外れ値という。
外れ値があると、予測結果がその値に左右されて、正確性を欠くことになる。

(1) 外れ値が生じる原因
外れ値が生じる原因は、下記の通り
・データ入力におけるミス
・表計算ソフトの集計行混入
・突発的な事象の発生
・IoT機器に継いているセンサーの故障
手入力ミスなど人為的なミスが多い。

(2) 外れ値の有無の確認
分析対象のデータの中に外れ値が含まれているかを確認する場合、欠損値と同じようにExcelのステータスバーを利用すると便利である。

(3) 外れ値への対処
外れ値は、生じた原因に応じて、扱いを考える必要がある。
外れ値が、異常値であれば、取り除く。発生すべきではない値を示していることが前提。
データを昇順や降順にして、上限以降を一律に切り捨てる方法があるが、やりすぎるとデータの正確性が欠如する。

1.3.5表記揺れ
表記揺れとは、ある単語の書き方が複数存在することで、指し示す表記にばらつきが出て、統一感がなく、データの信頼性を欠くことになる。
一つの会社を、複数の呼び名で指し示している場合、データを統一し、集約しなければ、データの統合生が欠如となる。

(1) 表記揺れの有無の確認には、フィルター機能が便利である。

(2) 表記揺れへの対処
表記を統一するには、パターンの洗い出しをして、どのようにして統一させたかを記録に残しておくこと。

ひらがた、カタカナ、全角カタカナ、半角カタカナの統一
PHONETIC関数を使う。

② 文字列に含まれる空白の除去
TRIM関数を使う

③ 文字の置き換えによる表記の統一
SUBSTITUTE関数を使う

④ 大文字と小文字の統一
UPPER関数を使う

1.3.6データの前処理完了後
データの前処理が完了したならば、改めてステータスバーやフィルター機能を使い、作業が正しく反映されているかを確認する。

あわせて読みたい