Discover Motifs in Multi Dimensional Time-Series Using the Principal Component Analysis and the MDL Principle

主成分分析とMDL原理を用いた多次元時系列データからのモチーフ発見


近年、時系列データにおいて頻出する未知のパターンの自動検出が注目を集めている。そのようなパターンはモチーフと呼ばれ、相関ルールの発見やクラスタリングなどさまざまな時系列解析に有用である考えられている。現在まで、時系列データからモチーフを抽出するアルゴリズムは現在まで数多く提案されてきた。しかしながら、これらのアルゴリズムは事前にモチーフの最適時間幅がわからなければ使用できない、多次元時系列データからの抽出は計算量の問題により不可能であるなどの問題点があり、まだまだ実用的であるとは言いがたい。
本研究ではこれらの問題点を解決し、マルチストリーム時系列データから自動的にモチーフを抽出することを目的としている。われわれの手法では、まず主成分分析を用いて多次元データを1次元に縮約し、計算量の軽減をはかる。その後、PAA表現を用いて時系列データをシンボル列に変換。最終的にMDL原理を用いてシンボル列からモチーフの最適時間幅を動的に決定し、それを用いて時系列データから最適なモチーフを抽出する。


[Back]