ジェスチャー認識
ジェスチャー認識は、画像や映像から手の21箇所のキーポイントを検出し、あらかじめ定義された26種類のジェスチャー(手の形や動き)を認識するAIアルゴリズムです。非接触操作、手話認識、AR/VRインタラクション、機器制御など、新しいヒューマンコンピュータインタラクション(HCI)を実現します。
アルゴリズム概要
以下の2段階で構成されます。
- 手ポーズ推定(Gestures Pose):手の21キーポイントを検出(指先、関節など)
- ジェスチャー分類(Gestures Classify):キーポイント配置から26種のジェスチャーを識別
認識可能なジェスチャー(26種)
| インデックス | ジェスチャー | 意味・用途 |
|---|---|---|
| 0 | call | 電話・呼出 |
| 1 | dislike | 否定・NG |
| 2 | fist | グー・決定 |
| 3 | four | 数字4 |
| 4 | grabbing | 掴む |
| 5 | grip | 握る |
| 6 | like | いいね・OK |
| 7 | little_finger | 小指 |
| 8 | middle_finger | 中指 |
| 9 | no_gesture | ニュートラル |
| 10 | ok | OKサイン |
| 11 | one | 数字1 |
| 12 | palm | 手のひら |
| 13 | peace | ピース |
| 14 | peace_inverted | 逆ピース |
| 15 | point | 指さし |
| 16 | rock | ロックサイン |
| 17 | stop | 停止 |
| 18 | stop_inverted | 逆停止 |
| 19 | three | 数字3 |
| 20 | three_gun | スリーガン |
エッジAI基板(RV1126B)実行効率
| 処理段階 | モデルサイズ | 処理時間 |
|---|---|---|
| 手ポーズ推定(Gestures Pose) | 11.6MB | 58ms |
| ジェスチャー分類(Gestures Classify) | 2.81MB | 5ms |
| 合計 | 14.41MB | 約63ms |
主な特徴
- 21キーポイント+26種分類:手の動きを高精度に認識
- 高速処理:ポーズ推定58ms+分類5msの合計約63ms
- 軽量モデル:合計14.41MBのコンパクトサイズ
- リアルタイム対応:エッジAI基板上で低遅延認識
ユースケース
- 非接触操作インターフェース(医療現場、クリーンルーム)
- AR/VRコントローラーの代替入力
- 手話認識システム
- スマートホームのジェスチャー制御(照明、家電)
- デジタルサイネージのインタラクティブ操作
- 介護施設での非接触コミュニケーション
- 工場のハンズフリー機器操作
エッジAI基板への実装
RV1126B の NPU を用いて、手ポーズ推定 58ms、ジェスチャー分類 5ms の合計約63msで処理。USBカメラやMIPIカメラと組み合わせ、エッジ側で完結するジェスチャー認識システムを構築できます。