ファイナンス機械学習

ファイナンス機械学習 モデリング1 アンサンブル法

アンサンブル法のいくつかを効果的にし、金融分野での誤用につながる誤りを回避する方法を紹介する。

誤りの3つの要因

アンサンブル法は、バイアスとバリアンスを減少させる。

  1. バイアス:非現実な過程。アンダーフィット(入力と出力変数との重要な関係を認識できない)
  2. バリアンス:訓練データセットに機敏。オーバーフィット。ノイズをシグナルと誤認してしまう。
  3. ノイズ:観測値のバリアンス(予測不可能な変化、測定誤差)

ブートストラップアグリゲーション

予測におけるバリアンスの削減に効果的な方法。オーバーフィットの対処(バリアンスの削減)にバギングを活用。正解率の向上と、その確認にバギング分類の実装が紹介されている。また、観測値の冗長性によるバギングへの悪影響とそれの解決策として、逐次ブートストラップ法の適用など、3つの代替解決案の説明があった。

ランダムフォレスト

決定木はオーバーフィット(予測のバリアンスを増加させる)しやすいが、ランダムフォレストは、低バリアンスのアンサンブル学習を行う。

バギングとの確認と比較を行い、sklerarnでの実装法を確認する。

ブースティング

弱推定器を組み合わせて高精度の推定を達成する具体的な手順の説明と、AdaBoostの説明、フローの図がの説明があった。利点として予測のバリアンスとバイアスの両方を削減できる。

バギングのほうが金融データの学習にはふさわしい。バイアスの修正はオーバーフィットのリスクが高まるため、バギングの方が望ましい。アンダーフィットへの対応はできるが、バギングならばオーバーフィットへの対処が可能。機械学習ではアンダーフィットよりオーバーフィットしやすいため、バギングのほうが有用。ブースティングは逐次実行であるが、バギングは並列実行が可能。

バギングのスケーラビリティ

SVMなどはサンプルサイズにうまく対応できない。バギングによって大きなデータセットに対しても迅速でロバストな推定の仕方の紹介。