OCR文字認識
OCR(Optical Character Recognition)文字認識は、画像内の文字領域を検出し、文字情報をテキストデータに変換するAIアルゴリズムです。文字検出と文字認識の2段階で構成され、ナンバープレート読み取り、帳票処理、標識認識など広範な用途で活用されます。
アルゴリズム概要
OCR処理は以下の2段階で構成されます。
- 文字検出(CTPN):画像内の文字領域を特定し、位置と範囲を検出。複雑な背景や傾きのある文字列にも対応
- 文字認識(CRNN):検出された文字領域をテキストに変換。文字単位の分割が不要で、不定長のテキスト列をエンドツーエンドで認識
エッジAI基板(RV1126B)実行効率
| アルゴリズム | モデルサイズ | 処理時間 |
|---|---|---|
| 文字検出(CTPN) | 3.31MB | 52ms |
| 文字認識(CRNN) | 6.19MB | 3ms |
主な特徴
- 2段階パイプライン:検出→認識の効率的な処理フロー
- 不定長テキスト対応:文字数が不定のテキスト列をエンドツーエンドで認識
- 軽量モデル:検出 3.31MB、認識 6.19MB のコンパクトなモデルサイズ
- 高速認識:認識処理は1文字あたり約3ms
ユースケース
- ナンバープレート自動読み取り
- 帳票・伝票の自動データ入力
- 標識・看板の文字情報抽出
- 製造ラインのシリアル番号読み取り
- 名刺情報のデジタル化
- メーター・計器の数値読み取り
エッジAI基板への実装
RV1126B の NPU を用いて、文字検出 52ms、文字認識 3ms の高速OCR処理を実現します。カメラ入力からテキスト出力までをエッジ側で完結できます。