TRECVID2017 – 上原研究室 | 神戸大学大学院システム情報学研究科

段階的な転移学習を行うニューラルネット群による動画像検索システム

近年、動画共有サービスの普及によって大量の動画の視聴が可能になった。そこでどう画像の内容から検索、ブラウジングが必要不可欠となる。そこで深層学習を利用する検索手法が考えられる。画像認識の分野においてConvolutional Neural Network(CNN)が高い精度を出している。一方で、CNNには学習時と異なるタスクに対して識別が難しいという問題点がある。学習時に含まれないコンセプトの識別には、学習により獲得した特徴を別の学習につなげる工夫が必要となる。これは転移学習とSVMを組み合わせることで実現できる。一方で動画像を認識、識別する場合にSVMを使うと、識別時にかかる計算コストが大きな問題となる。そこで本研究ではSVMの代わりに高速に学習、識別が可能なNNを用いた手法を提案する。加えて段階的転移学習という方法を提案し，時間的情報を学習できるLSTMを使うことで精度の向上を図る．この手法による大規模動画像データセットの検索での有効性を、動画像解析コンペティションであるTRECVIDによって示唆した。