オーバーサンプリングの問題点 - smote VS GICaPS

今回は、不均衡データでのクラス分類の方法および問題点について投稿します。 不均衡データと主要な分析手法 smote : Synthetic Minority Over-sampling Technique smoteの原理 smoteの実装 smoteの問題点 説明変数の次元数と相関係数の関係 オーバーサンプ…

Random Forest(Classifier)

今回の記事では、分類器の一つである決定木を応用したランダムフォレストについて学んだ知見をまとめます。 ランダムフォレストのアルゴリズム ランダムフォレストとは決定木の一つの手法です。決定木とは前回の交差検証の記事で示したようにノードのサンプ…

交差検証

今回は機械学習モデルの作成時に必須な考え方である交差検証について学んだことをまとめます。 学習モデルの汎化性 ホールド・アウト検証(train_test_split) 予測精度と分割サイズの影響 交差検証 K-分割交差検証 決定木と予測精度の関係 層化k分割交差検…

タイタニック号生存者予測 - 主成分分析(PCA)

本稿では、多変量解析で用いられる主成分分析(PCA)という手法を実際に適用し効果を確認することを目的とします。PCAとは、端的には多次元データが持つ情報を主成分ベクトルに変換する手法です。 PCAを用いるメリットは、元データ(特徴量)の情報要約する…

独立性の検定 - 特徴量選定

特徴量選定の方法として、前回までは目的変数と説明変数の相関係数に着目してきました。しかし、相関係数は説明変数として妥当だと判断する基準値は持ちません。 そこで、今回は統計的手法である独立性の検定を用いたいと思います。独立性の検定とは、異なる…

タイタニック号生存者予測- 多変量解析

本稿では、前回の内容に続き、タイタニック号の生存者予測の議論を行います。前回は、生存状況について一つ一つの特徴量ごとに調べましたが、本データのように特徴量を複数持つ場合は、特徴量間で相関がある可能性が考えられます(疑似相関)。その場合、実…

タイタニック号生存者予測 - 特徴量の扱い

特徴量の扱い方について学んだことを本稿にまとめることを目的とします。 目的変数と説明変数をひとつひとつ確認することで考察していきます。 SurvivedとPclassの関係 SurvivedとSexの関係 SurvivedとEmvarkedの関係 SurvivedとCabinの関係 SurvivedとAge…