コンテンツにスキップ

OCR文字認識

OCR(Optical Character Recognition)文字認識は、画像内の文字領域を検出し、文字情報をテキストデータに変換するAIアルゴリズムです。文字検出と文字認識の2段階で構成され、ナンバープレート読み取り、帳票処理、標識認識など広範な用途で活用されます。

アルゴリズム概要

OCR処理は以下の2段階で構成されます。

  1. 文字検出(CTPN):画像内の文字領域を特定し、位置と範囲を検出。複雑な背景や傾きのある文字列にも対応
  2. 文字認識(CRNN):検出された文字領域をテキストに変換。文字単位の分割が不要で、不定長のテキスト列をエンドツーエンドで認識

エッジAI基板(RV1126B)実行効率

アルゴリズムモデルサイズ処理時間
文字検出(CTPN)3.31MB52ms
文字認識(CRNN)6.19MB3ms

主な特徴

  • 2段階パイプライン:検出→認識の効率的な処理フロー
  • 不定長テキスト対応:文字数が不定のテキスト列をエンドツーエンドで認識
  • 軽量モデル:検出 3.31MB、認識 6.19MB のコンパクトなモデルサイズ
  • 高速認識:認識処理は1文字あたり約3ms

ユースケース

  • ナンバープレート自動読み取り
  • 帳票・伝票の自動データ入力
  • 標識・看板の文字情報抽出
  • 製造ラインのシリアル番号読み取り
  • 名刺情報のデジタル化
  • メーター・計器の数値読み取り

エッジAI基板への実装

RV1126B の NPU を用いて、文字検出 52ms、文字認識 3ms の高速OCR処理を実現します。カメラ入力からテキスト出力までをエッジ側で完結できます。

関連アルゴリズム

関連資料