Python

Python scikit-learn に含まれるデータセットを確認する

データセット

scikit-learn には、外部サイトからファイルをダウンロードせずに利用できる標準のデータセットが sklearn.datasets に用意されています。

概要問題関数名
ボストン住宅価格データセット回帰load_boston()
虹彩データセット分類load_iris()
糖尿病データセット回帰load_diabetes()
ディジット データセット分類load_digits()
物理運動の隠れ値のデータセット分類load_linnerud()
ワイン データセット分類load_wine()
乳癌ウィスコンシン州のデータセット分類load_breast_cancer()

OpenMLからデータセットを読み込む

OpenML から「名前」または「データセットのID」でデータセットをフェッチします。fetch_openml() 関数を使います。

例えば iris をダウンロードする場合は以下を実行します。

from sklearn.datasets import fetch_openml
dataset = fetch_openml('iris')