文字認識機能について

光学式文字認識（OCR）は、Google Distributed Cloud（GDC）のエアギャップにある 3 つの Vertex AI 事前トレーニング済み API の 1 つです。OCR サービスは、画像、ドキュメントファイル、手書き文字など、さまざまなファイル形式のテキストを検出します。

OCR には、Distributed Cloud でテキストを認識するために使用できる次のメソッドがあります。

メソッド	説明
`BatchAnnotateImages`	インラインリクエストで提供された JPEG または PNG 画像のバッチからテキストを検出します。
`BatchAnnotateFiles`	インラインリクエストで提供された PDF ファイルまたは TIFF ファイルのバッチからテキストを検出します。
`AsyncBatchAnnotateFiles`	オフラインリクエスト用に、ストレージバケット内の PDF ファイルまたは TIFF ファイルのバッチからテキストを検出します。

テキスト認識機能で検出されるサポート対象の言語について詳しくは、こちらをご覧ください。

光学式文字認識機能

OCR API では、画像からテキストを検出、抽出できます。次の 2 つのアノテーション機能は、光学式文字認識をサポートしています。

TEXT_DETECTION は、任意の画像からテキストを検出、抽出します。たとえば、写真に道路名や交通標識が写っていれば、OCR サービスは、抽出された文字列、個々の単語、それらの境界ボックスを含む JSON ファイルを返します。

図 1: OCR API が単語とその境界ボックスを検出した道路標識の写真。
DOCUMENT_TEXT_DETECTION も画像からテキストを抽出しますが、サービスは高密度のテキストやドキュメントに応じてレスポンスを最適化します。たとえば、入力されたテキストのスキャン画像には、複数の段落と見出しが含まれている場合があります。OCR サービスは、ページ、ブロック、段落、単語、改行の情報を含む JSON ファイルを返します。

図 2. OCR API が単語、ページ、段落などの情報を検出した、入力されたテキストのスキャン画像。

図 3 は手書きテキストの画像です。OCR API は、これらの画像からテキストを検出して抽出します。手書き入力認識をサポートする手書きスクリプトの一覧については、手書きスクリプトをご覧ください。

手書きの図

図 3. OCR API がテキストを検出した手書き文字の画像。

BatchAnnotateImages API メソッドと BatchAnnotateFiles API メソッドは、バッチ呼び出しごとに 1 つのリクエストのみをサポートします。

次の表に、Distributed Cloud の OCR サービスの現在の上限を示します。

OCR API に送信されたファイルが最大ページ数または最大ファイルサイズを超えている場合、エラーが返されます。最大画像サイズを超えるファイルが送信された場合は、2,000 万ピクセルに縮小されます。

OCR 事前トレーニング済み API は、次のファイル形式のテキストを検出して文字起こしします。

ファイルは Distributed Cloud 環境にローカルに保存する必要があります。Cloud Storage でホストされているファイルや、一般公開されているファイルにアクセスしてテキスト検出を行うことはできません。