2021-03-01から1ヶ月間の記事一覧

Random Forest(Classifier)

今回の記事では、分類器の一つである決定木を応用したランダムフォレストについて学んだ知見をまとめます。 ランダムフォレストのアルゴリズム ランダムフォレストとは決定木の一つの手法です。決定木とは前回の交差検証の記事で示したようにノードのサンプ…

交差検証

今回は機械学習モデルの作成時に必須な考え方である交差検証について学んだことをまとめます。 学習モデルの汎化性 ホールド・アウト検証(train_test_split) 予測精度と分割サイズの影響 交差検証 K-分割交差検証 決定木と予測精度の関係 層化k分割交差検…

タイタニック号生存者予測 - 主成分分析(PCA)

本稿では、多変量解析で用いられる主成分分析(PCA)という手法を実際に適用し効果を確認することを目的とします。PCAとは、端的には多次元データが持つ情報を主成分ベクトルに変換する手法です。 PCAを用いるメリットは、元データ(特徴量)の情報要約する…

独立性の検定 - 特徴量選定

特徴量選定の方法として、前回までは目的変数と説明変数の相関係数に着目してきました。しかし、相関係数は説明変数として妥当だと判断する基準値は持ちません。 そこで、今回は統計的手法である独立性の検定を用いたいと思います。独立性の検定とは、異なる…