ランダムな n クラス分類の問題を生成
PCAの学習時にも使用した、make_classification() 関数で生成できます。
パラメータ
引数名 | デフォルト値 | 概要 |
---|---|---|
n_samples | 100 | サンプル数 |
n_features | 20 | 特徴の総数 |
n_informative | 2 | 情報的特徴の数 |
n_redundant | 2 | 冗長特徴量の数 |
n_repeated | 0 | 情報的特徴と冗長特徴からランダムに抽出された重複特徴の数 |
n_classes | 2 | 分類問題のクラス(またはラベル)数 |
n_clusters_per_class | 2 | クラスごとのクラスタの数 |
weights | None | 各クラスに割り当てられたサンプルの割合。(n_classes,) または (n_classes – 1,) のような配列を引数に設定する。 None の場合の詳細はこちらから。 |
flip_y | 0.01 | クラスがランダムに割り当てられたサンプルの割合。値を大きくすると、ラベルにノイズが入り、分類作業が難しくなる。flip_y > 0 とすると、y のクラス数が n_classes 未満になる場合がある。 |
class_sep | 1.0 | 超立方体のサイズを乗算する係数。値を大きくすると、クラスタやクラスが分散され分類作業が容易になる。 |
hypercube | True | Trueの場合、クラスタは超立方体の頂点に配置される。False の場合、クラスタはランダムなポリトープの頂点に配置される。 |
shift | 0.0 | shape の配列 [n_features] または None を渡す。指定された値だけ特徴量をシフトする。None の場合は [-class_sep, class_sep] で描画されたランダムな値で特徴量をシフトする。 |
scale | 1.0 | 形状の配列 [n_features] または None 指定された値に特徴量を乗算する。Noneの場合、特徴量は[1, 100]で描画されたランダムな値でスケーリングされる。スケーリングはシフトした後に行われるため注意すること。 |
shuffle | True | サンプルと特徴量をシャッフルする |
random_state | None | データセット作成のための乱数を決定し、出力に再現性を持たせるための整数を渡す。 |