映像の意味解析における世界最高精度を達成

情報電子工学系学科 助教 白浜 公章

 

 「シンキャスティング」という言葉で表現されるように、YouTubeやニコニコ動画といった動画サイトの普及によって、従来のブロードキャスティングやナローキャスティングよりも、はるかに多くの映像を選択・視聴できる時代になりました。このような状況の中で、映像を1本1本吟味して、所望の映像を探し出すことは事実上不可能です。また、現在の動画サイトではキーワードベースの検索方法が主流ですが、キーワードを付与するための労力、言語の多義性、ユーザの恣意性・主観性が問題となります。そこで、計算機を用いて、色、エッジ、動きといった信号レベルの特徴量から、映像の意味を自動解析する技術に多大な期待が寄せられています。

 

 映像の意味解析における最も権威のある取り組みとして、NIST(米国標準技術局)主催の国際競争型ワークショップTRECVIDが挙げられます。TRECVIDでは、世界中の研究者が、共通の大規模映像データを利用して自動解析手法を開発し、性能を競い合いながら技術の向上を図ることを目的としています。特に、共通のデータを用いているため、開発された手法の性能を公正に評価・比較できるようになります。さらに、TRECVIDの参加者には、著作権に関係なく、論文やWebページなどで、映像データを自由に利用する権利が与えられます。このような背景から、国外ではIBM、BBC、スタンフォード大、CMUなど、国内ではNHK、NTT、NII、東工大など、例年、名だたる研究機関がTRECVIDに参加して鎬を削っており、著者も2008年より参加しています。

 

 TRECVID 2012では、著者は、神戸大学大学院システム情報学研究科 上原邦昭 教授と共同研究チームを組織して、「意味インデキシング」という部門に参加しました。意味インデキシングでは、「人」、「車」、「建物」といった、人間にとって意味のある概念を自動認識する手法を開発します。図1の棒グラフは、TRECVID 2012の意味インデキシング(light)部門で開発された手法の認識精度を表しています。1本の棒が1つの手法の認識精度を表し、左にある手法ほど高精度な手法となっています。著者らの手法の認識精度は、白抜きの棒で示しています。図1から分かるように、著者らは、世界25機関で開発された全91手法中、第1位の認識精度を達成することに成功しました。

 

 図2に、TRECVID 2012の145,634本のWeb動画に対する認識結果の例を示します。上から順に、「Airplane_Flying」、「Instrumental_Musician」、「Animal」という概念の認識結果を表しています。そして、概念ごとに、著者らの手法によって、概念が映っていると判定された評価値の高い上位30本の映像を並べています。図2から、「Airplane_Flying」、「Instrumental_Musician」といった、これまで認識困難とされていた概念が高精度に認識できていること、さらに「Animal(人以外の生物)」といった抽象的な概念も高精度に認識できていることが分かります。

 

 以下では、筆者らの手法の特徴を概説します。まず、概念の形状や向き、カメラ位置、照明条件といった、様々な変動要因に対して頑健な認識を行うためには、大量のサンプル映像を分析して認識モデルを構築する必要がありますが、計算時間が大きな問題となってきます。そこで、行列演算に基づいて、大量の映像間の類似度を一括して計算し、従来の約10~37倍高速に認識モデルを構築する手法を開発しました。また、映像中で概念が映る位置や時間(フレーム)がまちまちであるという不確定性を吸収するためには、あらゆる領域から特徴量を抽出し、映像の特性を表すシグネチャ表現として統合する必要があります。そこで、行列演算に基づいて、大量の特徴量に対する確率密度を一括して計算する手法を開発しました。これにより、1つの映像につき、数百万個の領域から抽出された特徴量を統合してシグネチャ表現を構築できるようになりました。結論としては、上記の高速化手法によって、他の研究機関よりも、多くのサンプル映像、詳細なレベルの特徴量を処理できたことが、第1位の精度を達成した要因だと考えています。

 

 今後は、Web上に存在する数千万から数億規模のWeb動画を認識対象とするために、PCクラスタを用いた並列分散処理による開発手法の高速化、及び認識精度をさらに向上させるために、認識モデルへの人間の知覚プロセスの導入について検討する予定です。最後に、開発手法の詳細は、下記のNISTのWebサイトから、TRECVID 2012のオンラインプロシーディングスとして閲覧できます。

 

(論文)

http://www-nlpir.nist.gov/projects/tvpubs/tv12.papers/kobe-muroran.pdf

 

(講演資料)

http://www-nlpir.nist.gov/projects/tvpubs/tv12.slides/tv12.kobe-muroran.sin.slides.pdf

 

著者としては、先日投稿した開発手法に関するジャーナル論文が採択されることを祈るばかりです。

 

図1:TRECVID 2012意味インデキシング(light)部門で開発された手法のランキング

図1:TRECVID 2012意味インデキシング(light)部門で開発された手法のランキング

 

図2:開発した手法による概念認識結果の例

図2:開発した手法による概念認識結果の例

 

 

情報電子工学系学科Webサイト:http://www.muroran-it.ac.jp/ie/index.html

 

教育・研究の最前線 過去の記事

2013.04.04応用理化学系学科応用物理コースの教育・研究最前線―レアアース合金における強相関電子状態の解明と高機能金属材料の開発―

2013.03.19本学における第二外国語教育の特色と語学研修

2013.02.18ロボットアリーナにおけるものづくり体験教室-未来の技術者と近未来の技術者育成-

2013.01.28コンピュータシミュレーションによる光デバイスの解析と自動最適設計技術

2013.01.07「震災被災地の環境調査と安全評価法の提言」プロジェクト

2012.12.21応用理化学系学科バイオシステムコースの教育・研究最前線―生物の力を利用して化学物質のかたちを変える―

2012.12.05人間の感性と機械の感性

2012.11.20室蘭工業大学教育ワークショップ

2012.11.05室蘭工業大学男女共同参画推進への取り組み

2012.10.18超音波が可能にする特異な“動かす”技術

2012.10.05情報メディア教育センターについて

2012.09.24地域共同研究開発センターの活動

2012.09.06応用理化学系学科応用化学コースの教育・研究最前線―粉砕法を利用した機能材料の開発―

2012.08.24機器分析センターに導入された最新の機器類

2012.08.08建物・基礎・地盤を総合的に考えた建築構造物の振動研究 -併用基礎の耐震性能の評価に向けて-

2012.07.24人の知能と、コンピュータの知能

2012.06.22東京都市大学との戦略的大学連携支援事業

2012.06.07国際交流センターの活動

2012.05.23バーチャルリアリティソフトウェア開発環境「仮想現実工房」を利用した実践的演習の取り組み

2012.05.10応用理化学系学科 応用物理コースの教育・研究最前線―新奇誘電体材料の開発と物性評価―

2012.03.16ロボットアリーナ := 「ロボットの今と未来がみえてくる。」

2012.03.02ものづくり基盤センターの活動

2012.02.15航空宇宙機システム研究センターの教育・研究最前線

2012.02.02災害時に有効な支援体制を目指して

2012.01.26短時間でインフルエンザウイルスのサブタイプを判定する光センサーの実現に向けて

2011.12.13環境・エネルギーシステム材料研究機構の研究紹介

2011.11.16難分解性汚染物質の原位置浄化を目指した処理システムの実用化開発 ー新環境型汚染修復システムの構築に向けてー

2011.10.25大学の研究と発明・特許 -室蘭工業大学 知的財産本部の役割-

2011.10.07高機能炭素ナノ材料の創製と電気化学エネルギー変換デバイスへの応用 ー持続可能な社会の構築に向けてー

2011.09.09バイオガスの放電プラズマ改質による水素生成技術開発 ー低炭素社会の実現に向けてー

2011.06.21FDワーキンググループの活動

 

更新年月日:2013年4月24日
作成担当部局:総務グループ総務ユニット

ページトップ