OCR 语言支持

Cloud Vision API 的文本识别功能可以检测多种语言,还可以检测单张图片中的多种语言。

无需为该服务提供语言提示,不过,如果该服务难以检测您的图片中所用的语言,则可以提供语言提示。

随着手写 OCR 正式版 (GA) 的发布,使用 DOCUMENT_TEXT_DETECTION 时包含手写内容的图片不再需要手写 languageHints 标志。

可选语言提示在请求的 ImageContext 中指定,作为 TEXT_DETECTIONDOCUMENT_TEXT_DETECTION 请求的一系列 languageHints

每个语言代码参数通常都包含一个 BCP-47 标识符。此参数可以采用“language-region”的格式,其中“language”是指主要语言,“region”(可选)是指特定方言的地区(通常是国家/地区标识符)。例如,中文可以表示为中华人民共和国的简体中文 (zh-Hans) 或台湾地区的繁体中文 (zh-Hant)。

文本识别功能支持三种级别的语言:

  1. 受支持语言,我们会优先考虑这些语言,并定期进行性能评估。
  2. 实验性语言,这些语言正处于开发阶段,但不会定期评估。
  3. 映射语言,这些语言可通过映射到其他语言代码或常规字符识别器而获得支持。例如,“en-GB”受支持,但出于识别文本的目的,系统不会将其与“en”区分对待。我们会尽力在“实体”语言区域字段中返回正确的映射语言代码,但是与完全受支持的语言或用实验方法支持的语言相比,映射语言更有可能被误识别为相似的语言。

下面显示了 TEXT_DETECTIONDOCUMENT_TEXT_DETECTION 支持的语言列表(包含关联的 languageHint 代码)。

如果语言提示留为空白,我们将尝试自动检测最合适的语言。TEXT_DETECTION 端点将仅会自动检测部分受支持的语言,而 DOCUMENT_TEXT_DETECTION 端点将自动检测全部受支持的语言。

支持的语言

以下语言会得到优先考虑并会定期进行评估。

如需按功能过滤,请从下拉菜单中输入或直接选择所需的语言:

实验性语言

以下语言正处于开发阶段,但不会定期评估。

映射语言

以下语言会映射到其他语言代码或映射到常规字符识别器。