同じデータに何度もテストを繰り返す行為が嘘の発見に繋がり、米国統計協会は倫理ガイドラインにおいて、科学的不正と指摘している。
特徴量重要度の重要性
機械学習のブラックボックスに対応する。分類器が見つけたパターンに対して、どの情報源(特徴量)が不可欠かを理解すれば、そのパターンに対する見識を得ることができる。(どの特徴量が重要かがわかれば、常に重要か、他のクラスにも関係するかを学ぶことができる)
代替効果による特徴量重要度
ある特徴量の重要度が、他の関連する特徴量によって削減されるときに生じる効果。統計学などでは多重共線性と呼ばれる。線形な代替効果へ、未加工の特徴量に主成分分析を適用した後、直交な特徴量に対して特徴量重要度分析を実行する。平均不純度減少量(MDI)は、ランダムフォレストなどのツリーベースの分類器特有な、重要度を測る方法。平均正解率減少量(MDA)は、アウトオブサンプルでの予測における重要度を測る方法。
代替効果を除いた特徴量重要度
代替効果によって、実際には重要な特徴量が破棄される可能性がある。
単一特徴量重要度(SFI)は、横断面(分析)で、アウトオブサンプルでの予測における重要度を測る手法。結合効果と階層的重要度が失われるという欠点がある。(留意事項は割愛します。)そこで直交化をして対応する。これにより、代替効果で重要な特徴量が破棄される可能性への対処、特徴量の次元を減らす、データ構造を説明するために設計された特徴量に分析が行えるようになる。
ここでも実際のアルゴリズムや実装が紹介されておりとても勉強になりました。特に特徴量に対する理解が一段と深まる章でした。