コンテンツにスキップ

ジェスチャー認識

ジェスチャー認識は、画像や映像から手の21箇所のキーポイントを検出し、あらかじめ定義された26種類のジェスチャー（手の形や動き）を認識するAIアルゴリズムです。非接触操作、手話認識、AR/VRインタラクション、機器制御など、新しいヒューマンコンピュータインタラクション（HCI）を実現します。

アルゴリズム概要

以下の2段階で構成されます。

手ポーズ推定（Gestures Pose）：手の21キーポイントを検出（指先、関節など）
ジェスチャー分類（Gestures Classify）：キーポイント配置から26種のジェスチャーを識別

認識可能なジェスチャー（26種）

インデックス	ジェスチャー	意味・用途
0	call	電話・呼出
1	dislike	否定・NG
2	fist	グー・決定
3	four	数字4
4	grabbing	掴む
5	grip	握る
6	like	いいね・OK
7	little_finger	小指
8	middle_finger	中指
9	no_gesture	ニュートラル
10	ok	OKサイン
11	one	数字1
12	palm	手のひら
13	peace	ピース
14	peace_inverted	逆ピース
15	point	指さし
16	rock	ロックサイン
17	stop	停止
18	stop_inverted	逆停止
19	three	数字3
20	three_gun	スリーガン

エッジAI基板（RV1126B）実行効率

処理段階	モデルサイズ	処理時間
手ポーズ推定（Gestures Pose）	11.6MB	58ms
ジェスチャー分類（Gestures Classify）	2.81MB	5ms
合計	14.41MB	約63ms

主な特徴

21キーポイント＋26種分類：手の動きを高精度に認識
高速処理：ポーズ推定58ms＋分類5msの合計約63ms
軽量モデル：合計14.41MBのコンパクトサイズ
リアルタイム対応：エッジAI基板上で低遅延認識

ユースケース

非接触操作インターフェース（医療現場、クリーンルーム）
AR/VRコントローラーの代替入力
手話認識システム
スマートホームのジェスチャー制御（照明、家電）
デジタルサイネージのインタラクティブ操作
介護施設での非接触コミュニケーション
工場のハンズフリー機器操作

エッジAI基板への実装

RV1126B の NPU を用いて、手ポーズ推定 58ms、ジェスチャー分類 5ms の合計約63msで処理。USBカメラやMIPIカメラと組み合わせ、エッジ側で完結するジェスチャー認識システムを構築できます。

関連アルゴリズム

関連資料