Python

Python scikit-learn 分類問題を生成する make_classification

ランダムな n クラス分類の問題を生成

PCAの学習時にも使用した、make_classification() 関数で生成できます。

パラメータ

引数名デフォルト値概要
n_samples100サンプル数
n_features20特徴の総数
n_informative2情報的特徴の数
n_redundant2冗長特徴量の数
n_repeated0情報的特徴と冗長特徴からランダムに抽出された重複特徴の数
n_classes2分類問題のクラス(またはラベル)数
n_clusters_per_class2クラスごとのクラスタの数
weightsNone各クラスに割り当てられたサンプルの割合。(n_classes,) または (n_classes – 1,) のような配列を引数に設定する。
None の場合の詳細はこちらから。
flip_y0.01クラスがランダムに割り当てられたサンプルの割合。値を大きくすると、ラベルにノイズが入り、分類作業が難しくなる。flip_y > 0 とすると、y のクラス数が n_classes 未満になる場合がある。
class_sep1.0超立方体のサイズを乗算する係数。値を大きくすると、クラスタやクラスが分散され分類作業が容易になる。
hypercubeTrueTrueの場合、クラスタは超立方体の頂点に配置される。False の場合、クラスタはランダムなポリトープの頂点に配置される。
shift0.0shape の配列 [n_features] または None を渡す。指定された値だけ特徴量をシフトする。None の場合は [-class_sep, class_sep] で描画されたランダムな値で特徴量をシフトする。
scale1.0形状の配列 [n_features] または None
指定された値に特徴量を乗算する。Noneの場合、特徴量は[1, 100]で描画されたランダムな値でスケーリングされる。スケーリングはシフトした後に行われるため注意すること。
shuffleTrueサンプルと特徴量をシャッフルする
random_stateNoneデータセット作成のための乱数を決定し、出力に再現性を持たせるための整数を渡す。