観測値が独立同分布な過程によって生成されているわけでないという問題に対処するための重みづけの使い方を学びます。
重複した結果
現実の金融関連の実務における特徴、サンプルが独立せず、非決定論的で未知であり非常に複雑であることを示した上で、非IIDラベルの問題に対しての課題解決の章であることを説明されていました。
同時発生的なラベルの数とラベルの平均独自性
ラベルの独自性の推定について説明がありました。そして、ラベルの平均独自性(重複がないもの)について推定し、0-1の独自性スコアを割り当てる。
分類器のバギングと独自性
平均独自性を導入することで、冗長な情報を含んだ結果の(不適切な)影響を軽減する。
逐次ブートストラップとその実装、数値例
変動する確率を利用して抽出することで、冗長性をコントロールする。インディケータ行列から平均独自性の算出方法などの実装が紹介されている。実際の数値例で、どのようなことが言えるのか、注目すべき点として、特徴量と重複度、確率がより好ましいことを確認した。
モンテカルロ法
逐次ブートストラップの効率の評価し、標本の独自性の期待値が、いかなる信頼水準においても標準的なブートストラップによる期待値を上回っていることを確認した。
リターンによるサンプルの重み付け
観測値には、独自性と絶対リターンの両方の関数によって重み付けをする。方法の根拠、具体的な標本ウェイトの実装の紹介。冗長な観測値がある場合にウェイトが早く減りすぎるため、経過時間ではなく、累積独自性による減衰を採用した実装が紹介されている。
時間減衰
市場が適応系であり、時間の経過とともに古いものは関連性を失うため、新しい観測値の入力に伴って、減衰させていく。
クラスの重み付け
重要なクラスがまれにしか現れない分類問題において、クラスの重み付けを適用することで、そのように少数しか存在しないが重要なラベルを補正することができる。(そうしないと外れ値とみなされる)
「金融の世界に簡単に機械学習が適用できるという人の話を聞くのは、時間とお金の無駄である。」(P.79) うまい話はないということで、騙されないようにと警告されているようにも取れました。良書すぎで驚きました。