JSAI2023 2日目感想 : ROCKET特徴量を用いた多変量時系列データ分類における変数重要度の導出

○大場拓慈、長沼茂太、塩澤暁広、山下遼人(株式会社NTTデータ数理システム)

背景

時系列データをROCKETカーネルと呼ばれるもので高次元空間に特徴量を写像、その後リッジ回帰などの分類器を用いて分類するといい感じの結果が得られるが、高次元空間に写像する以上、分類結果に貢献しているデータが元の時系列データによるものか不明。

提案手法

ROCKETカーネルを貸して特徴量の重要度を各変数(時系列)に分配する

カーネル行列(時系列数x窓の大きさxカーネルサイズ)の第 kカーネルの行の絶対値和によって、各変数のカーネルへの寄与度を計算し、スケーリングによって寄与率を得る。各変数の重要度を、その寄与率のカーネルごとの重みつき平均によって定める。比較用として、最後の重みを排したものも求め、オッズ比を計算する。オッズ比が1より大きければ、重みによって重要度が増加しているし、1より小さい場合はその逆が起きている。

このオッズ比に求められていることは以下の2つ。

  • 乱数による影響が少なくあって欲しい
  • 重要度が高いとされたものは本当に重要度が高くあって欲しい。より具体的には、重要度が高いと判定された変数を削除すると性能が悪化して欲しいし、低いと認定されたものは削除しても大した影響がなくあって欲しい。

実験

適当なデータセットに対してパルス波を紛れ込ませ、パルス波が発生しているかの判定を行ってもらう分類タスクを課した。そうすると上記の2つの性質がちゃんと満たされていた。

感想

変数重要度"らしい"ものが得られて、確かに削除すれば性能が落ちたり落ちなかったりするようだが、理論的にそれが変数の重要度を示しているかの裏付けがない。またデータセットの種類も乏しかったので、その辺りは課題かな。さらに言えば、時系列1本丸々の重要度ではなく、適当な時系列の特定のタイミングに対する重要度についての算出も欲しい。余談だが、高次元に写像して低次元に戻すという作業、時系列データであることも相まってレザバー計算を思い出した。レザバーだったらダメなんですかね。