AnnotateImageResponse

画像アノテーション リクエストに対するレスポンス。

JSON 表現
{
  "textAnnotations": [
    {
      object (EntityAnnotation)
    }
  ],
  "fullTextAnnotation": {
    object (TextAnnotation)
  },
  "error": {
    object (Status)
  },
  "context": {
    object (ImageAnnotationContext)
  }
}
フィールド
textAnnotations[]

object (EntityAnnotation)

存在する場合、テキスト(OCR)検出が正常に完了しています。

fullTextAnnotation

object (TextAnnotation)

存在する場合、テキスト(OCR)検出またはドキュメント(OCR)テキスト検出が正常に完了しています。このアノテーションは、OCR で検出されたテキストの構造的階層を提供します。

error

object (Status)

設定されている場合、オペレーションのエラー メッセージを表します。error が設定されている場合でも、存在する画像アノテーションは正しいことが保証されます。

context

object (ImageAnnotationContext)

存在する場合は、この画像の取得元を特定するためにコンテキスト情報が必要になります。

EntityAnnotation

検出されたエンティティの特徴のセット。

JSON 表現
{
  "mid": string,
  "locale": string,
  "description": string,
  "score": number,
  "confidence": number,
  "topicality": number,
  "boundingPoly": {
    object (BoundingPoly)
  },
  "properties": [
    {
      object (Property)
    }
  ]
}
フィールド
mid

string

不透明エンティティの ID。一部の ID は Google Knowledge Graph Search API で使用できます。

locale

string

エンティティ テキスト description が表現されているロケールの言語コード。

description

string

エンティティ テキストの説明。locale の言語で表現されます。

score

number

結果の全体的なスコア。範囲は [0, 1] です。

confidence
(deprecated)

number

サポートを終了しました。代わりに score を使用してください。画像でのエンティティ検出の精度。たとえば、「Eiffel Tower」というエンティティが検出された画像の場合、このフィールドは、クエリ画像内に塔があることの信頼度を表します。範囲は [0, 1] です。

topicality

number

画像に対する ICA(Image Content Annotation)ラベルの関連度。たとえば、「Eiffel Tower」が検出された画像と遠方にある塔(Tower)が検出された画像の場合、塔があることの信頼度が同一であっても、「Tower」の関連度は「Eiffel Tower」が検出された画像の方が高くなります。範囲は [0, 1] です。

boundingPoly

object (BoundingPoly)

このエンティティが属する画像領域。LABEL_DETECTION 機能では作成されません。

properties[]

object (Property)

エンティティの中には、エンティティを修飾するスコアや文字列など、オプションのユーザー指定 Property(名前/値)フィールドを持つものがあります。

BoundingPoly

検出された画像アノテーションの境界ポリゴン。

JSON 表現
{
  "vertices": [
    {
      object (Vertex)
    }
  ],
  "normalizedVertices": [
    {
      object (NormalizedVertex)
    }
  ]
}
フィールド
vertices[]

object (Vertex)

境界ポリゴンの頂点。

normalizedVertices[]

object (NormalizedVertex)

境界ポリゴンの正規化された頂点。

Vertex

頂点は、画像上の 2D の点を表します。注: 頂点の座標は元の画像と同じスケールです。

JSON 表現
{
  "x": integer,
  "y": integer
}
フィールド
x

integer

X 座標。

y

integer

Y 座標。

NormalizedVertex

頂点は、画像上の 2D の点を表します。注: 正規化された頂点座標は、元の画像と相対しており、0~1 の範囲になります。

JSON 表現
{
  "x": number,
  "y": number
}
フィールド
x

number

X 座標。

y

number

Y 座標。

プロパティ

Property は、ユーザー指定の名前と値のペアで構成されます。

JSON 表現
{
  "name": string,
  "value": string,
  "uint64Value": string
}
フィールド
name

string

プロパティの名前。

value

string

プロパティの値。

uint64Value

string

数値プロパティの値。

TextAnnotation

TextAnnotation には、OCR で抽出されたテキストの構造化された表現が含まれます。OCR で抽出されたテキスト構造の階層は次のようになります。

TextAnnotation-> Page -> Block -> Paragraph -> Word -> Symbol

Page から始まる各構造要素には、検出された言語、区切りなどを記述するプロパティがある場合があります。詳細については、次の TextAnnotation.TextProperty メッセージ定義をご覧ください。

JSON 表現
{
  "pages": [
    {
      object (Page)
    }
  ],
  "text": string
}
フィールド
pages[]

object (Page)

OCR によって検出されたページのリスト。

text

string

ページで検出された UTF-8 テキスト。

ページ

OCR から検出されたページ。

JSON 表現
{
  "property": {
    object (TextProperty)
  },
  "width": integer,
  "height": integer,
  "blocks": [
    {
      object (Block)
    }
  ],
  "confidence": number
}
フィールド
property

object (TextProperty)

ページで検出された追加情報。

width

integer

ページの幅。PDF の場合、単位はポイントです。画像(TIFF を含む)の場合、単位はピクセルです。

height

integer

ページの高さ。PDF の場合、単位はポイントです。画像(TIFF を含む)の場合、単位はピクセルです。

blocks[]

object (Block)

このページのテキスト、画像などのブロックのリスト。

confidence

number

ページの OCR 結果の信頼度。範囲は [0, 1] です。

TextProperty

構造コンポーネントで検出された追加情報。

JSON 表現
{
  "detectedLanguages": [
    {
      object (DetectedLanguage)
    }
  ],
  "detectedBreak": {
    object (DetectedBreak)
  }
}
フィールド
detectedLanguages[]

object (DetectedLanguage)

検出された言語と信頼度のリスト。

detectedBreak

object (DetectedBreak)

検出されたテキスト セグメントの開始または終了。

DetectedLanguage

検出された構造コンポーネントの言語。

JSON 表現
{
  "languageCode": string,
  "confidence": number
}
フィールド
languageCode

string

「en-US」や「sr-Latn」などの BCP-47 言語コード。詳細については、https://www.unicode.org/reports/tr35/#Unicode_locale_identifier をご覧ください。

confidence

number

検出された言語の信頼度。範囲は [0, 1] です。

DetectedBreak

検出された構造コンポーネントの開始または終了。

JSON 表現
{
  "type": enum (BreakType),
  "isPrefix": boolean
}
フィールド
type

enum (BreakType)

検出された区切りのタイプ。

isPrefix

boolean

区切りが要素の前にある場合は True。

BreakType

検出された区切りのタイプを示す列挙型。改行、スペースなどです。

列挙型
UNKNOWN 不明な区切りラベルタイプ。
SPACE 標準スペース。
SURE_SPACE 広幅のスペース。
EOL_SURE_SPACE 行折り返しの区切り。
HYPHEN テキストに存在しない行末ハイフン。SPACELEADER_SPACELINE_BREAK と組み合わせて出現することはありません。
LINE_BREAK 段落を終了する改行。

ブロック

ページ上の論理的な要素。

JSON 表現
{
  "property": {
    object (TextProperty)
  },
  "boundingBox": {
    object (BoundingPoly)
  },
  "paragraphs": [
    {
      object (Paragraph)
    }
  ],
  "blockType": enum (BlockType),
  "confidence": number
}
フィールド
property

object (TextProperty)

ブロックについて検出された追加情報。

boundingBox

object (BoundingPoly)

ブロックの境界ボックス。頂点は、左上、右上、右下、左下の順に並んでいます。境界ボックスの回転が検出された場合、回転はテキストを「自然な」方向で読み取るときの左上隅を中心と定義して表されます。例:

  • テキストが水平の場合、次のようになります。
    0----1
    |    |
    3----2
  • テキストが左上隅を中心として 180 度回転した場合は、次のようになります。
    2----3
    |    |
    1----0

頂点の順序は (0, 1, 2, 3) のままです。

paragraphs[]

object (Paragraph)

このブロック内の段落のリスト(このブロックのタイプがテキストの場合)。

blockType

enum (BlockType)

このブロックの検出されたブロックタイプ(テキスト、イメージなど)。

confidence

number

このブロックの OCR 実行結果の信頼性。範囲は [0, 1] です。

Paragraph

多数の単語を特定の順序で示すテキストの構造単位。

JSON 表現
{
  "property": {
    object (TextProperty)
  },
  "boundingBox": {
    object (BoundingPoly)
  },
  "words": [
    {
      object (Word)
    }
  ],
  "confidence": number
}
フィールド
property

object (TextProperty)

段落について検出された追加情報。

boundingBox

object (BoundingPoly)

段落の境界ボックス。頂点は、左上、右上、右下、左下の順に並んでいます。境界ボックスの回転が検出された場合、回転はテキストを「自然な」方向で読み取るときの左上隅を中心と定義して表されます。例: * テキストが水平の場合、0----1 | | 3----2 なります。* 左上隅を中心に 180 度回転すると、2----3 | | 1----0 となり、頂点の順序は(0、1、2、3)のままです。

words[]

object (Word)

この段落にあるすべての単語のリスト。

confidence

number

この段落の OCR 結果の信頼度。範囲は [0, 1] です。

Word

単語の表現。

JSON 表現
{
  "property": {
    object (TextProperty)
  },
  "boundingBox": {
    object (BoundingPoly)
  },
  "symbols": [
    {
      object (Symbol)
    }
  ],
  "confidence": number
}
フィールド
property

object (TextProperty)

単語について検出された追加情報。

boundingBox

object (BoundingPoly)

単語の境界ボックス。頂点は、左上、右上、右下、左下の順に並んでいます。境界ボックスの回転が検出された場合、回転はテキストを「自然な」方向で読み取るときの左上隅を中心と定義して表されます。例: * テキストが水平の場合、0----1 | | 3----2 なります。* 左上隅を中心に 180 度回転すると、2----3 | | 1----0 となり、頂点の順序は(0、1、2、3)のままです。

symbols[]

object (Symbol)

単語内の記号のリスト。記号の順序は、自然な読み順に従います。

confidence

number

単語に対する OCR 結果の信頼度。範囲は [0, 1] です。

記号

1 つの記号表現。

JSON 表現
{
  "property": {
    object (TextProperty)
  },
  "boundingBox": {
    object (BoundingPoly)
  },
  "text": string,
  "confidence": number
}
フィールド
property

object (TextProperty)

記号について検出された追加情報。

boundingBox

object (BoundingPoly)

記号の境界ボックス。頂点は、左上、右上、右下、左下の順に並んでいます。境界ボックスの回転が検出された場合、回転はテキストを「自然な」方向で読み取るときの左上隅を中心と定義して表されます。例: * テキストが水平の場合、0----1 | | 3----2 なります。* 左上隅を中心に 180 度回転すると、2----3 | | 1----0 となり、頂点の順序は(0、1、2、3)のままです。

text

string

記号の実際の UTF-8 表現。

confidence

number

記号の OCR 結果の信頼度。範囲は [0, 1] です。

BlockType

OCR で特定されたブロックのタイプ(テキスト、画像など)。

列挙型
UNKNOWN 不明なブロックタイプ。
TEXT 標準テキスト ブロック。
TABLE テーブル ブロック。
PICTURE 画像ブロック。
RULER 水平線 / 垂直線ボックス。
BARCODE バーコード ブロック。

ImageAnnotationContext

ファイルから(PDF など)画像が生成された場合は、このメッセージに画像のソースに関する情報が表示されます。

JSON 表現
{
  "uri": string,
  "pageNumber": integer
}
フィールド
uri

string

画像の生成に使用されるファイルの URI。

pageNumber

integer

ファイルが PDF または TIFF の場合、このフィールドには、画像の生成に使用されたファイル内のページ番号が示されます。