加工済みのデータセットを使うのではなく、有益な特徴量を抽出できるように加工する。
基本形式
金融データの形式は大きく分けて4つに分類される。
- ファンダメンタルデータ:厳格に規則化され、更新頻度は低い。市場に反映されやすく、利用価値は残っていないかもしれないが、他のデータと組み合わせると有用。
- 市場データ:取引所や注文執行の場のデータすべてで、人間かどうかなどの特徴などが出るだけでなく、1日に10TB以上生成されるため、戦略研究のための良いデータセットになる。
- アナリティクス:投資銀行やリサーチ会社が、企業を分析した情報。シグナルが元のソースから抽出されているが、高価でバイアスが存在する可能性があり、他に利用者がいる。
- オルタナティブデータ:人工衛星から、交通状況や駐車場の利用率などを調べそこからその意味を抽出する。一次データであり、ほかに比べて、独自性が高く、特殊で困難であるが、もっとも期待できるデータでもある。
バー
標準バー
ほとんどのデータベンダがAPIで提供している。観測値を規則的なサンプリングに変換する。
- タイムバー:一定の時間間隔に1回のサンプリング。利用は避けるべき。分散不均一性などを理由に挙げている。
- ティックバー:指定した取引数の発生ごとのサンプリング。タイムバーよりも優れている。異常値に注意する必要がある。分割注文される可能性がある。
- ボリュームバー:分割注文への対応として、一定数の売買単位が執行される度にサンプリングする。
- ドルバー:ティック数や出来高に影響を与えるようなコーポレートアクションが発生しても安定して推移する。
情報駆動バー
新たな情報をより高頻度にサンプリングし、注文フローの不均衡を監視するなどする。
- ティックインバランスバー:同量の情報を含む取引の塊。
- ボリューム/ドルインバランスバー:ティックインバランスバーの拡張。バーサイズを動的に調節して対応する。
- ティックランバー:連続系列の中断を許し、連続系列の長さの計測よりもより有用なものにする。
- ボリューム/ドルランバー:出来高と売買金額に拡張したもの。それらが期待値を上回ったときにバーをサンプリングする。
マルチプロダクト
時間の経過とともに動的にウェイトを調整する必要がある資産の時系列のモデル化に対応するために、ETFトリック、主成分分析によるウェイトが紹介されていた。
特徴量サンプリング
適切なサンプルサイズ、サンプルのみで学習を行うことで最高の精度が得られる。適切な訓練例を紹介がされていた。
- ダウンサンプリング:等間隔サンプリング、一様サンプリング
- イベントベースサンプリング:CUSUMフィルタ
横着せずに世界を他人の目ではなく、自分の目で見るべきだという話から始まりました。当たり前ですがとても重要。