コンテンツにスキップ

ジェスチャー認識

ジェスチャー認識は、画像や映像から手の21箇所のキーポイントを検出し、あらかじめ定義された26種類のジェスチャー(手の形や動き)を認識するAIアルゴリズムです。非接触操作、手話認識、AR/VRインタラクション、機器制御など、新しいヒューマンコンピュータインタラクション(HCI)を実現します。

アルゴリズム概要

以下の2段階で構成されます。

  1. 手ポーズ推定(Gestures Pose):手の21キーポイントを検出(指先、関節など)
  2. ジェスチャー分類(Gestures Classify):キーポイント配置から26種のジェスチャーを識別

認識可能なジェスチャー(26種)

インデックスジェスチャー意味・用途
0call電話・呼出
1dislike否定・NG
2fistグー・決定
3four数字4
4grabbing掴む
5grip握る
6likeいいね・OK
7little_finger小指
8middle_finger中指
9no_gestureニュートラル
10okOKサイン
11one数字1
12palm手のひら
13peaceピース
14peace_inverted逆ピース
15point指さし
16rockロックサイン
17stop停止
18stop_inverted逆停止
19three数字3
20three_gunスリーガン

エッジAI基板(RV1126B)実行効率

処理段階モデルサイズ処理時間
手ポーズ推定(Gestures Pose)11.6MB58ms
ジェスチャー分類(Gestures Classify)2.81MB5ms
合計14.41MB約63ms

主な特徴

  • 21キーポイント+26種分類:手の動きを高精度に認識
  • 高速処理:ポーズ推定58ms+分類5msの合計約63ms
  • 軽量モデル:合計14.41MBのコンパクトサイズ
  • リアルタイム対応:エッジAI基板上で低遅延認識

ユースケース

  • 非接触操作インターフェース(医療現場、クリーンルーム)
  • AR/VRコントローラーの代替入力
  • 手話認識システム
  • スマートホームのジェスチャー制御(照明、家電)
  • デジタルサイネージのインタラクティブ操作
  • 介護施設での非接触コミュニケーション
  • 工場のハンズフリー機器操作

エッジAI基板への実装

RV1126B の NPU を用いて、手ポーズ推定 58ms、ジェスチャー分類 5ms の合計約63msで処理。USBカメラやMIPIカメラと組み合わせ、エッジ側で完結するジェスチャー認識システムを構築できます。

関連アルゴリズム

関連資料