深層学習がもたらした画像認識技術の飛躍的向上

2012年のImageNetの物体認識コンペにおいてジェフリー・ヒントン率いるトロント大学のチームが、深層学習技術を用いて従来技術より遥かに高い認識性能を達成した。

それ以来、従来の技術では非常に難しいとされている画像認識技術が飛躍的に向上し、顔認識の精度が人間の認識能力を超えるなど、これまでには考えられない新しい技術が急速に創出されている。ここで、ILSVRC2016で優勝したチームを支える深層学習プラットフォームといくつかの深層学習による画像認識技術の応用事例を紹介する。

はじめに

2013年MITのテクノロジレビューで、最もインパクトのあるブレイクスルーに深層学習が選ばれて以来、わずか2、3年の間に、世界中で深層学習技術がブームになった。2013年にGoogleと中国のBaidu が相次いで画像検索のサービスを発表、FacebookはYann LeCunを迎えてAI研究所を設立した。2014年にはGoogleがDeepMindを買収して後にAlphaGoを開発し、不可能と考えられていた、囲碁の世界チャンピオンに勝利するという偉業を達成した。

なぜ、このように目まぐるしく人間の能力を超えるAI技術が発展してきたのか。主に3つの要因がある。まず、深層学習のアルゴリズムの進化によるものがある。従来では数層しか学習できなかったニューラルネットワークが、現在、マイクロソフトのKaiming Heらが提案したResnetでは、数100層を超える大型なネットワークをも構築可能となった。

2つ目の要因は、ビッグデータによるものだ。たとえば、近年顔認識は数千万人のデータを扱えるようになり、認識性能が飛躍的に向上した。3つ目の要因は、大量のGPUを搭載した学習用計算機インフラの整備によって、従来では考えられなかった大量データでの学習を短期間で効率よくできるようになったことである。SenseTime社は深層学習をベースとした画像認識技術を多岐に渡って開発してきた。

たとえば、顔、人体、車両などを含む一般物体認識技術、画質向上に関連するブレ除去、霧除去、輝度補正技術、従来では難しいとされる複雑背景における文字認識技術、大量の群衆が集まる際の人流分析技術、自動運転に必要な環境変化にロバストな車線検出、歩行者認識技術も実用に向けて開発している。本稿では、SenseTime社が開発した深層学習の基盤技術といくつかの応用事例を紹介する。

深層学習の基盤技術

深層学習の技術レベルを向上させるために、SenseTime社は画像認識分野のオリンピックといわれているILSVRC（ImageNet Large Scale Visual Recognition Challenge）に積極的に取り組んでいる。ILSVRC2016ではObject DetectionとScene Parsingの2部門で優勝した。

ILSVRC2015では動画部門のObject Detectionで優勝している。これらの成績を支えているのはSenseTime社と香港中文大学が独自に開発した深層学習プラットフォームである。SenseTime社が開発した深層学習プラットフォームは主に次の3つの部分から構成されている（図1）。

（1）学習アルゴリズムのプラットフォームとしてのParrots
（2）学習を支えるマルチノードのGPUマシン群とそのコントロールを担うツール群DeepLink
（3）様々な実行ハードウェア上最適化したニューラルネットワークの高速演算ライブラリPPL

図1　SenseTime社の深層学習プラットフォーム

人間の識別能力を超える顔認識技術

SenseTime社が開発した深層学習をベースとした顔認識技術、約数千万人の顔画像を使って学習したアルゴリズムである。顔認識の精度を表すFalse Accept Rateが100万分の1に達しており、指紋認証と同レベルである。従来の顔認識技術と比べて、以下のような特徴がある。

3.1　照明環境の変化にロバスト
従来の顔認識アルゴリズムでは入力された顔画像の照明環境と、登録した検索対象の顔画像の照明環境がほぼ同じであることが望ましいとされていた。照明環境が変わると、認識性能が著しく落ちることがあるからだ。

たとえば、証明写真は均一な照明環境で撮ることがほとんどだが、室外で撮る写真には顔に影がかかることもあり、室外で撮った影のある写真と証明写真の認証は特に難しい。深層学習をベースとした顔認識技術は様々な環境で集めた画像を用いて学習できるため、照明環境の変化にロバストな顔照合が可能になった。

3.2　経年変化にロバスト
顔認識の難しい課題の1つは経年変化である。経年変化は年齢層や個人差が大きいため、一概にはいえないが、5年以上の経年変化への対応はきわめて難しい。しかし深層学習をベースとしたアルゴリズムは、10年以上の経年変化にも対応可能である。中国の場合、消費者金融機関では20年有効の写真付き身分証明書による自動照合がすでに実用化されている。

SenseTime社の技術によって20年の経年変化にも対応でき、人による顔照合よりも正確であることが実証されている。このような高精度の顔認識技術はすでにFintechとしてインターネットファイナンス分野で実用されている。成功事例の1つを紹介する。

中国の消費者金融企業「貸借宝」は消費者金融アカウントをスマホで開設する際、個人認証としてこの技術を実用した。スマホで個人認証を自動的に行う場合、あらゆる環境で自撮りした画像を身分証明書の写真と照合する必要があり、しかも精度が高く要求されるため、きわめて難しいとされている技術である。

図2に撮影した照明環境が異なる上、経年変化が10年もある写真が照合成功した事例を示す。ここでは、類似度50％以上が同一人物として認められる設定で、86％の類似度はほぼ確実に本人として認められることを意味する。

図2　照明環境変化と経年変化にロバストな顔照合

図3に消費者金融向けの顔照合システムの動作イメージを示す。

図3　スマホの自撮り写真と身分証明書の写真の照合

サーベイランス向けビデオ映像分析技術

画像認識技術の重要な応用分野の1つはサーベイランスで、安心安全と治安維持のためにビデオ映像の分析と検索技術への期待が大きい。SenseTime社では、街中のサーベイランスビデオ映像から車、歩行者、二輪車を検出し、属性を推定する技術を開発している。

車の属性は大型バス、トラック、乗用車などの車種および車の色を推定できる。歩行者の場合は服装のタイプと所持品である鞄の有無や鞄の種類を推定できる。図4にあるようなきわめて混雑した中国の市街地でも高い精度で認識できる。

図4　混雑した市街地での車両、歩行者検出と属性推定

スマホでの顔デコレーション

深層学習技術によって開発された顔検出や顔特徴点検出技術は、スマホでもリアルタイムで実行できるように高速化されている。その応用先としてのSNOWやFaceUなどのスマホによる顔のデコレーションのアプリが大流行している（図5）。SNOWやFaceUに使われている顔検出や顔特徴点検出技術はSenseTime社の深層学習技術で開発したものである。

図5　FaceUの顔デコレーション事例

悪い照明環境と悪天候での車線推定技術

近年、自動運転や運転支援（ADAS）技術への期待が高まっている。従来の技術による車線検出技術では、照明環境が悪い場合や、車線が不明瞭な場合、そして雨や雪などの悪天候によって認識できないことが多い。深層学習技術を用いて、このような環境での車線推定も可能であることを確認できた（図6）。

図6　悪い環境での車線検出の事例

その他の基盤技術

画像認識の中で、セグメンテーション技術は物体検出、物体認識、トラッキング技術と並んで、汎用性の高い重要な基盤技術である。SenseTime社では、深層学習の技術を用いて、精度の高いセグメンテーション技術を開発できた。このような精度の高いセグメンテーション技術は、自動運転においても役立つと考えられる（図7）。