ファイナンス機械学習

ファイナンス機械学習 データ分析1 データ構造

加工済みのデータセットを使うのではなく、有益な特徴量を抽出できるように加工する。

横着せずに世界を他人の目ではなく、自分の目で見るべきだという話から始まりました。当たり前ですがとても重要。

基本形式

金融データの形式は大きく分けて4つに分類される。

  • ファンダメンタルデータ:厳格に規則化され、更新頻度は低い。市場に反映されやすく、利用価値は残っていないかもしれないが、他のデータと組み合わせると有用。
  • 市場データ:取引所や注文執行の場のデータすべてで、人間かどうかなどの特徴などが出るだけでなく、1日に10TB以上生成されるため、戦略研究のための良いデータセットになる。
  • アナリティクス:投資銀行やリサーチ会社が、企業を分析した情報。シグナルが元のソースから抽出されているが、高価でバイアスが存在する可能性があり、他に利用者がいる。
  • オルタナティブデータ:人工衛星から、交通状況や駐車場の利用率などを調べそこからその意味を抽出する。一次データであり、ほかに比べて、独自性が高く、特殊で困難であるが、もっとも期待できるデータでもある。

個人で趣味でやるなら、オルタナティブデータを扱うとよいかもしれませんが…、個人で扱えるということは、当然より大きな組織では当たり前のように使用されているともいえそうです。量やその組み合わせによって多くの選択を得ることができ、精度の向上も期待できるとは思います。個人であっても個人対個人という構図も存在すると考えると、調べて加工して、自分なりの予測値の候補として扱えたらそれはマシな選択肢ともいえる気がします。

バー

標準バー

ほとんどのデータベンダがAPIで提供している。観測値を規則的なサンプリングに変換する。

  • タイムバー:一定の時間間隔に1回のサンプリング。利用は避けるべき。分散不均一性などを理由に挙げている。
  • ティックバー:指定した取引数の発生ごとのサンプリング。タイムバーよりも優れている。異常値に注意する必要がある。分割注文される可能性がある。
  • ボリュームバー:分割注文への対応として、一定数の売買単位が執行される度にサンプリングする。
  • ドルバー:ティック数や出来高に影響を与えるようなコーポレートアクションが発生しても安定して推移する。

情報駆動バー

新たな情報をより高頻度にサンプリングし、注文フローの不均衡を監視するなどする。

  • ティックインバランスバー:同量の情報を含む取引の塊。
  • ボリューム/ドルインバランスバー:ティックインバランスバーの拡張。バーサイズを動的に調節して対応する。
  • ティックランバー:連続系列の中断を許し、連続系列の長さの計測よりもより有用なものにする。
  • ボリューム/ドルランバー:出来高と売買金額に拡張したもの。それらが期待値を上回ったときにバーをサンプリングする。

情報駆動バーの説明はややこしいですが、書籍を丁寧に読むとわかりやすかったです。突然数式が出てきて身構えるかもしれませんが、とりあえず性質だけ理解して読み飛ばしてもよいのかもしれません。

マルチプロダクト

時間の経過とともに動的にウェイトを調整する必要がある資産の時系列のモデル化に対応するために、ETFトリック、主成分分析によるウェイトが紹介されていた。

現状ではあまり興味がなかったので、メモだけして読み飛ばしました。

特徴量サンプリング

適切なサンプルサイズ、サンプルのみで学習を行うことで最高の精度が得られる。適切な訓練例を紹介がされていた。

  • ダウンサンプリング:等間隔サンプリング、一様サンプリング
  • イベントベースサンプリング:CUSUMフィルタ

章末に向かうにつれ難しくなったのを感じました。正直挫折しそうな感があります。2章は何とか読み切りました。練習問題があったので、眺めて見ましたが、読む前には全く分からなかった内容が、調べればいけなくもないくらいにはなっていたので、達成感がありました。この調子で読み進めます。