2020-08-14
"Realtime Multi-Person Pose Estimation" とは、人物の映った画像や動画から人物の姿勢情報を特定する推論モデルで、複数人物における各関節点の二次元、あるいは三次元の座標を元に推論されます。
人物が重なることによって発生するオクルージョン(遮蔽)や、多様性の極めて高い着衣や所有物によって関節点の検出が極めて難しく、ディープラーニングの推論モデルの中でも難易度の高いものに分類されます。
ここでは各Pose Estimation アルゴリズムの比較結果からみる当社プロダクトの優位性及び、今後の展望をご紹介させて頂きます。
Object keypoint similarity (OKS) based mAP を用いて計測しています。各関節点の検出能力の高さを示します。AIエッジデバイス "NVIDIA Jetson Nano" を用いた計測で、世界で最も有名な CMU: Carnegie Mellon University の OpenPose を 5.9ポイント上回っています。GTXやRTXといったサーバ系のGPUを用いても同様の性能差が認められます。
注) 上記グラフは国内・国外の18社及び、4大学の公示情報に基づき、ハイパフォーマンスな 3社 + 1大学にサマライズして表記したもの。
■ JETSON NANO(左図)
NVIDIA社の小型のAIエッジデバイス。モジュールサイズはわずか 70 x 45 mm で、現在本モジュールを搭載したさまざまな商用デバイスが販売されています。
サイズの小型化と、価格が廉価になっていく昨今の流れはAIの社会実装、民主化の速度を急速に早めていくものと考えています。
2020-0813_AsillaPoseV3=12.3 fps, mAP 36.5%@NVidia Jetson Nano
1秒間のframe処理数=fps、つまり処理の軽快さを示しています。fpsが高ければ高いほど、①豊富な情報で精度の高い時系列後段処理が可能、②並行する他の処理にGPUリソースを分配が可能、といった大きな製品メリットが生まれます。
当社プロダクトは、こちらも CMU Openpose の約2倍のパフォーマンスを実現しています。 こちらも精度を前述のmAPと同様、NVIDIA Jetson Nanoにおけるベンチマークです。
姿勢推定の結果から、個体をトラッキングする能力の評価指標です。当社のMOTAは現在 60.56% (2020年8月現在)で、他のアルゴリズムが 25fps から 30fps のフレームレートを要するのに対し、わずか 5fpsで実現できる点が特長です。
前述のNVIDIA社のエッジデバイス(JETSON)のみならず、様々なエッジデバイス対応を進めています。それぞれメリット・デメリットがありますので、社会実装する際にニーズにマッチしたデバイスを選択できる状態にすることを日々目指しています。
- TOSHIBA Visconti (対応準備中)
- Xilinx Zynq UltraScale+
- Nvidia Jetson(Nano, AGX, NX, TX2)
エッジデバイスへの対応を公示しているのは 18社及び4大学のうち 6社。そのうち Xilinx対応と Viscontiへの対応準備をしているのは、どちらも当社のみとなりました。
上記の比較データはあくまでインターネットにおける公示情報のリサーチ結果であって、グローバルで深掘りすればさらにハイレベルな技術は存在すると考えています。
当分野で世界一を目指すアジラ社は、2020年の秋を目途に以下をはじめとするグローバルスタンダードのコンペティションに積極的に参戦し、世界戦略の一環として世界における認知度を向上させて参る所存です。
例えば、以下のような世界規模のコンペティションを予定しています。
また、今夏は以下のピッチに参戦予定です。
以上です。
VaaS企業である当社は、今期 8案件の実証を進めており、近々皆様のお手元に(あるいは見えないところに)本技術が社会実装され、多くの皆様の役に立つことができれば幸いです。
引き続き、ご指導、ご鞭撻のほどよろしくお願いいたします。