IT情報バンク

IT information Bank

誤差逆伝播法(バックプロパゲーション)

誤差逆伝播法(バックプロパゲーション)は、ランダムに定めた重みの初期値を用いてネットワークの順方向(入力側から出力側への方向)に計算を行い、その出力値と正解ラベルの誤差(コスト)をベースにネットワークの逆方向(出力側から […]

ニューラルネットワーク

(6)ニューラルネットワーク ニューラルネットワークは、多層パーセプトロンとも呼ばれている。 パーセプトロンを階層上にした構造となっている。 すなわち、線形回帰またはロジスティック回帰における入力層と出力層の間に、中間層 […]

k近傍法(k-NN) 分類法

(4)k近傍法(k-NN) k近傍法は、最も単純なアルゴリズムの一つ。特徴空間内で、分類対象のデータから距離的に近い(=類似している)k個の教師データの多数決によって、分類結果を決める手法。 k近傍法を採用する際は、kを […]

ランダムフォレスト 分類法

(3)ランダムフォレスト ランダムフォレストは、決定木の簡易版を複数作り、その多数決によって分類の結果を決める手法。 ランダムフォレストのように複数の簡易分類器の学習結果を組み合わせる手法を、アンサンブル学習という。 決 […]

決定木 分類法

(2)決定木 決定木は、説明変数に着目して、ifによる分岐を連続させ、それぞれの閾値を境にデータを分割することで、データを分類する。 メリットは、一つ一つの説明変数が結果に対して、どの程度影響を与えているかがわかりやすく […]

様々な分類手法 線形SVM・非線形SVM

(1)SVM(サポートベクターマシン) ①線形SVM SVMはロジスティック回帰と同じく、データの境界線を見つけて、データの分類を行う手法です。 超平面(クラスの境界線)から、各クラスの超平面に最も近いデータ(サポートベ […]

混同行列(Confusion Matrix)

(4)混同行列(Confusion Matrix) 混同行列とは、適合率と再現率の計算に必要な「モデルが分類した結果」と「実際の結果」を2軸として、該当する値を表にまとめたもののこと。 真陽性、偽陰性の1文字目の真偽は、 […]

分類モデルの評価

分類モデルの評価 (1)正解率(Accuracy) 最もシンプルな評価基準は、正解率(Accuracy)である。 正解率=正解した数(分子)/予測したデータ数(分母) 正解しやすいが、データに偏りがある場合は、この指標だ […]

ロジスティック回帰

ロジスティック回帰は、分類の代表的なアルゴリズムです。 パーセプトロンと同様に、線形分離可能なデータを分類するアルゴリズムである。 パーセプトロンとの違いは、 1.出力に加え、各データがあるクラスに分類される確率値を算出 […]

パーセプトロン

(1)パーセプトロンの仕組み パーセプトロンとは、複数の値を入力として受け取り、一つの値を出力するアルゴリズムのこと。 単純パーセプトロン 単層パーセプトロン このパーセプトロンという仕組は、1959年代にニューロン(神 […]

教師あり学習②(分類)

教師あり学習②(分類) 画像認識は、ここに分類される。 ロジスティック回帰 様々な分類の手法 ディープラーニング 分類の問題は大きく2つに分けられる。 二項分類(2クラス分類) 多項分類(多クラス分類) 二項分類とは、分 […]

標準化と正規化

(1)標準化 標準化とは、対象となる特徴量の分布が平均0・標準編差1の正規分布となるようにスケーリングすること。 μはデータセットの平均、データセットの標準偏差 (2)正規化 正規化とは、対象となる特徴量の最小値が0、最 […]

スケーリング

スケーリングとは、特徴量の尺度を揃えること。 各特徴量をスケーリングして、尺度を揃えることで、それぞれの係数の大小を比較できるようになる。 機械学習のアルゴリズムには、特徴量の尺度が揃っていなければ上手く動かないものがあ […]

汎化・高バリアンス・高バイアス

未知のデータに対しても、学習データと同じように精度が出るモデルのことを、汎化(Generalization)能力が高いモデルと言う。 過学習になりやすい複雑なモデルを高バリアンス(High Variance) 未学習にな […]

過学習と未学習

学習データを用いた場合には、高い精度が出るのに、未知のデータでは精度が出ない状態を過学習(Overfitting)と言う。 過学習は、学習データに対して、過度に適合した結果である。 練習問題は合格点だが、実際のテストでは […]

多項式

モデル精度の改善方法 1.トレーニングデータを増やす 2.説明変数を増やす/減らす 3.新しい特徴量を作成する 4.多項式項目を増やす 5.正則化を取り入れる(増減):本講座では扱わない。 多項式項目とは、多項式項目を取 […]

決定係数

平均二乗誤差以外にも回帰式の精度を表す指標はある。その一つが決定係数である。 決定係数は、回帰分析の当てはまりの良さを表し、データの変動を回帰式で説明できる割合のこと。 決定係数の範囲:0~1 全てのデータが回帰式上にあ […]

誤差の二乗

誤差の二乗の場合は、基本的に小さければ小さいほどモデルの精度は高いと言える。 残差プロット(データ毎の残差をプロットした散布図) 残差プロットを描き、それがおおむねy=0の直線の周りに集まっていれば、良いモデルができたと […]

モデルの評価

モデルの評価 手順 1.データセットを学習データとテストデータに分割する。 2.学習データを使ってモデルを学習させる。 3.テストデータを使って検証する。 1.は、学習データとテストデータの比率は多くの場合5:5~8:2 […]

重回帰分析の説明2

=ラベルの予測において、2次元以上の特徴量がそれぞれ、どの程度、影響を与えているかを測定する手法のこと。 単回帰分析は、特徴量は1次元で、特徴量とラベルの間に「直線的な関係(線形)」が前提となっている。 重回帰分析のよう […]

重回帰分析の説明1

=2種類以上の説明変数がある回帰分析のこと。 重回帰分析の式 [機械学習の用語] 特徴量:説明変数のこと。 次元:説明変数の種類・数のこと。 ラベル:目的変数のこと。 違う言い方だが、内容は一緒である。

最小二乗法

残差が最小となる回帰直線を探すための最もシンプルな方法。 実測値は、プラス、マイナスと散在する可能性があるため、単純に合算では求められない。 残差を二乗し、符号を全てプラスに統一し、その上で総和を求め、そこから最小化を求 […]

[単回帰分析]

直線の式(1次式) y=ax+b y(目的変数)=a(回帰係数)*x(説明変数)+b(切片) 最適な値とは、「求めたい回帰直線=最も当てはまりの良い線」 回帰直線上の値と実際の値の差が最も小さい直線のこと。 この差分のこ […]

[単回帰分析]

「ある1つの変数xが大きくなる場合に、別の変数yにどの程度の影響を与えるか」を測定する。 2つの変数の散布図を描いた時、それらの関係性を最も上手く表す直線(回帰直線)の式を求めるのが、単回帰分析である。

予測したい変数(目的変数)

予測したい変数(目的変数) 別の変数(説明変数)=基盤変数 ・説明変数と目的変数の間に直線的な関係がある=線形回帰 ・説明変数と目的変数の間に曲線的な関係がある=非線形回帰 ・説明変数一つだけの単回帰分析 ・説明変数が複 […]

回帰

回帰は、連続値を予測する。 [回帰が実現すること] →商品販売数の予測、来店客数の予測 →基盤となる変数を基にして、別の変数を予測することができる。 ・基盤変数と予測する変数の関係が線形(=直線的)となる線形回帰 ・非線 […]

副問合せのネスト

副問合せは、別の副問合せの中にネストすることができます。 WHERE句では、255レベルまでねすとすることができます。 FROM句では、無制限にネストが可能です。 ※なお、一般的に、ネストレベルが深くなるにつれ、SQL文 […]

COALESCE関数

COALESEC(式1 , 式2 [, 式n・・・]) COALESCE関数は、引数に指定された式リストを先頭(左側)からチェックし、最初に見つかったNULL値以外の値を戻す関数です。 すべての式がNULL値の場合は、N […]

NULLIF関数

NULLIF(式1,式2) NULLIF関数は、引数に指定された2つの値を比較して、等しい場合はNULL値を戻し、等しくない場合は、式1の値を戻す関数です。

REPLACE関数

REPLACE REPLACE関数は、文字列内の指定された一部の文字列を別の文字列に置き換えます. SQLサンプル SELECT REPLACE(‘イヌヌーピー’, ‘イヌ’ […]

IoT技術について考察

IoT技術は、今後更に巨大な需要を確立することだろう。 いままでのセンサー搭載の数とは比べものにならないほど、膨大な数を設置することが当たり前となるからだ。 ロボットを一つ上げるならば、いままでのセンサーの数では、少なす […]

NVL2関数

NVL2(式1,式2,式3) NVL2関数は、引数式1に指定された値がNULL値以外であれば、式2を戻し、NULL値の場合は、式3を戻す関数です。 戻り値のデータ型は、常に式2のデータ型と同じになります。 また、変換でき […]

NVL関数

NVL(式1,式2) NVL関数は、引数式1に指定された値がNULL値以外の場合は、式1を設定し、NULLの場合は、式2を設定します。 NVL関数を用いないで単純な計算式にしてしまうと、NULL値を含んだ時点で計算結果は […]

5G通信による社会変革について

5G通信がいよいよ実用化となる。 5G通信によって、社会は大きな変革を迎えるだろう。 一つには、自動運転車の普及につながる技術であること。 一つには、IoT実現に必要不可欠な環境を整えてくれること。 一つには、人間活動を […]

ITの今後の動向について

IT業界は、今後も大いに躍進していくだろう。 それは、IT業界に支えられた社会が、構築されているからに他ならない。 ITは人間の活動をより強固なものとした。 便利で、それでいてコストを抑えることに成功している。 人の手に […]

MONTHS_BETWEEN関数

MONTHS_BETWEEN関数は、引数として、受け入れた2つの日付間の月数を戻す関数です。 1ヶ月以下の値は小数に戻されます。 日付1が日付2よりも前の日付の場合は、負の数値を戻します。 MONTHS_BETWEEN( […]

LOWER関数

LOWER関数は、引数として受け入れた文字列をすべて小文字に変換して戻す関数です。 LOWER(文字列) SQL> SELECT LOWER (‘SMALL CHARACTERS’) FROM T […]

仮想通貨の未来像について

ここ最近は、仮想通貨の市場が非常に活発化しています。 いままではほとんど価値が付かなかった仮想通貨が軒並み2017年の間に何十倍、何百倍も値段を上げています。 こうした状況は、単なる投機熱だけではない、近未来の社会スタイ […]

Java APIについて②

Javaプログラムが動作するためには、多くのクラスがJVMに読み込まれます。 JVMが必要なクラスファイルを読み込む処理のことをクラスローディング(class loading)といいます。 クラスローディングは、必要なク […]

Java APIについて

JavaのAPIは、およそ200を超えるパッケージと3,500を超える数多くのクラスが標準提供されています。 プログラム開発者は、それら数多くのクラスをいつでも自由に利用することができます。 APIは、専門家が作ったもの […]

メソッド(method)について

コードの部品化として、メソッドを活用します。 一つのクラス内で処理コードを書き続けていくと、助長になってしまい、見やすさが失われてきます。 煩雑した区切りのないコードが縦長にずらずらと書き連ねるのは、あまり良いものであり […]

データベースの種類について

DBMSには、幾つかの種類があります。 年代の古い順にDBMSの種類について、ご紹介しましょう。 ■階層型データベース 昔からあるDBMSで、フォルダとファイルのように階層構造でデータを格納するタイプのデータベースになり […]

SQL命令の分類について

リレーショナルデータベースに使用されるSQLには、大きく分けて、3つの種類に分類される。 DML(Data Manipulation Language) DDL(Data Definition Language) DCL […]

DCL (Data Control Language)について

DCL (でぃーしーえる) Data Control Languageの略。 データを制御する命令のことを指す。 DCLには、トランザクション制御を行う命令やデータへのアクセス権限を制御する命令が含まれる。

DDL (Data Definition Language)について

DDL(でぃーでぃーえる) Data Definition Languageの略。 データを定義する命令を指す。 データベースでは「データベースオブジェクト」と呼ばれるデータの入れ物を作成してデータを管理する。 このデー […]

DML (Data Manipulation Language)について

DML(でぃーえむえる) (Data Manipulation Language)の略 データを操作するための命令のことを指す。 データ操作とは、データを新しくデータベースに追加したり、削除したり、内容を更新することを指 […]

AI活用の平準化を見据えて

2017年現在、AIビジネスが活況を呈している。 新たなビジネスモデルとして、活用することが時流から乗り遅れまいとするビジネスパーソンたちを刺激している。 AIには、極端に分けて、強いAIと弱いAIがある。 強いAIは、 […]