OCR 言語のサポート

Cloud Vision API のテキスト認識機能では、多様な言語を検出でき、1 つの画像内の複数の言語を検出できます。

サービスに言語のヒントを提供することは必須ではありませんが、サービスで画像に使用されている言語の検出が困難な場合に行うことができます。

手書き OCR 一般提供のリリースに伴い、DOCUMENT_TEXT_DETECTION を使用する場合、手書き文字の含まれた画像には手書き languageHints フラグが不要になりました。

言語ヒント(省略可能)は、TEXT_DETECTION および DOCUMENT_TEXT_DETECTION リクエストに関して、リクエストの ImageContext 内に languageHints リストとして指定します。

各言語コード パラメータは一般に BCP-47 識別子で構成されています。このパラメータでは、言語-地域の形式が可能です。ここで、言語は第一言語を表し、地域(省略可能)は特定の言語の地域(通常は国の識別子)を表します。たとえば、中国語は中華人民共和国で使用される簡体中国語(zh-Hans)、または台湾で使用される繁体中国語(zh-Hant)で表されます。

テキスト認識機能には、次の 3 段階の言語サポートがあります。

  1. サポート対象言語は、優先して定期的にパフォーマンスを評価されます。
  2. 試験運用言語は開発が積極的に進められていますが、定期的に評価されません。
  3. マッピング言語とは、別の言語コードや一般的な文字認識ツールにマッピングすることでサポートされる言語です。たとえば、「en-GB」はサポートされていますが、文字認識においては「en」と同様に扱われます。エンティティのロケール フィールドで正しいマッピング言語コードを返すよう最善を尽くしますが、マッピング言語は完全にサポートされている言語や試験運用でサポートされている言語よりも、類似した言語として誤って認識される可能性があります。

TEXT_DETECTIONDOCUMENT_TEXT_DETECTION でサポートされる言語のリスト(および関連する languageHint コード)は、以下のとおりです。

言語ヒントが空白の場合、最適な言語の自動検出を試みます。TEXT_DETECTION エンドポイントは、サポートされている言語のサブセットのみを自動検出します。一方、DOCUMENT_TEXT_DETECTION エンドポイントは、サポートされているすべての言語を自動検出します。

サポートされる言語

次の言語は優先され、定期的に評価されます。

機能別でフィルタするには、目的の言語を入力するか、プルダウン メニューから選択します。

試験運用言語

次の言語は現在開発が積極的に進められている最中ですが、まだ定期的に評価されていません。

マッピング言語

次の言語は別の言語コードにマッピングされるか、一般的な文字認識ツールにマッピングされます。