強化学習の「OpenAI Gym」の仕組みや環境について学んで来ましたが、今日は強化学習のアルゴリズムのライブラリ「Stable Baselines」をインストールしてみます。
強化学習のアルゴリズムは論文で多数発表されていますが、それを自ら実装するのは車輪の再発明と言えますし、興味がある方は深く調査、検証と意義のある進め方ができますが、そうでないならばあえて実装する必要もないと言えそうです。
強化学習のアルゴリズムのライブラリは、OpenAIからは、「OpenAI Baselines」がリリースされています。そして、同様のものにはStable BaselinesやCoach、RLLibなど多くのライブラリがあります。今回は、「OpenAI Baselines」をベースにした改善版、「Stable Baselines」を選択して、インストール、動作確認を行います。
Stable Baselinesのインストール
Windowsでの環境構築は、こちらを確認しながら進めます。
はじめにMicrosoft MPI v10.0をこちらのダウンロードボタンを押して、「
msmpisetup.exe」を選択してダウンロードします。インストーラに従って進めます。
次に、以下のコマンドを実行してインストールします。 (筆者は以前、一連の強化学習のために作ったPython3.6の環境へインストールしました)
pip install stable-baselines[mpi]
また、ドキュメントにもあるように Tensorflowの1.14.0を入れておきます。
pip install tensorflow==1.14.0
Stable Baselinesの動作確認
それでは、早速動作確認してみます。
公式のサンプルを保存して、実行してみましょう。
無事に下記のような実行結果が得られました。