JSAI2023 2日目感想 : 波形類似度と合成波の原理に基づく多次元系列データ次元削減法

○蛭田興明、高屋英知(慶應義塾大学 大学院理工学研究科) ○栗原聡(慶應義塾大学 理工学部)

背景

大規模時系列データの解析、価値提供技術は発展途上で、最も大きな問題の一つに、計算コストが挙げられる。なので、次元削減を行うことで重要な情報を残しつつ計算コストを抑えようという取り組みがある。

関連研究

データを直接分析する方法

PCA, LDA, SVDなどの伝統的手法のほか、時系列データに特化したものとしてICA, NMFがあるらしい。さらに、時系列データへの適用を目的としたPCAベースの手法もいくつか提案されている。

データを他の表現に置き換える方法

フーリエ変換などの信号処理技術がこれにあたる。古典的すぎて改良の余地があるよね、と言いたいらしい。

で、これらを踏まえて本研究では信号を合成波の原理に基づいて次元削減を行うことを目的とする。フーリエ変換の次元削減を主目的にした版といった感じかな?

提案手法

  1. 波形処理 差分系列や対数変換、べき変換などでノイズなどによる影響を減らし、波の性質を適用できるようにする。

  2. クラスタリング 波形処理後のデータをクラスタリングして複数のグループに分ける。k-Shapeなるアルゴリズムを用いているらしい

  3. クラスタごとに変数の重要度を算出 物理学で、合成波の波長は、それぞれの波同士の調和平均で表せるという法則が存在するらしく、それを利用して次元削減するらしい。この時、何も考えずに調和平均を取るとノイズの影響が出るので、変数ごとに重要度を算出する。この重要度の計算にはPCAを用いるようだ。

実験

8次元の時系列データを3次元に圧縮し、ICAやPCAなどのベースラインと比べ正解率を上げることに成功した。

感想

いうても4割弱ですからね正解率。ところで時系列解析を行うPCAといえば個人的にはFPCAだったんですがそちらは試されていないのでしょうか。でも異常検知タスクとかなら割と有用そう。実験タスクの難易度が高すぎたんや…