AnnotateImageResponse

Antworten auf eine Bildanmerkungsanfrage

JSON-Darstellung
{
  "textAnnotations": [
    {
      object (EntityAnnotation)
    }
  ],
  "fullTextAnnotation": {
    object (TextAnnotation)
  },
  "error": {
    object (Status)
  },
  "context": {
    object (ImageAnnotationContext)
  }
}
Felder
textAnnotations[]

object (EntityAnnotation)

Falls vorhanden, wurde die Texterkennung (OCR) erfolgreich abgeschlossen.

fullTextAnnotation

object (TextAnnotation)

Falls vorhanden, wurde die Erkennung von Text (OCR) oder Dokumenttext (OCR) erfolgreich abgeschlossen. Diese Anmerkung stellt die strukturelle Hierarchie für den OCR-Erkennungstext bereit.

error

object (Status)

Die Fehlermeldung für den Vorgang, falls diese festgelegt ist. Beachten Sie, dass die eingetragenen Bildanmerkungen garantiert korrekt sind, auch wenn ein error angezeigt wird.

context

object (ImageAnnotationContext)

Falls vorhanden, sind Kontextinformationen erforderlich, um zu verstehen, woher dieses Bild stammt.

EntityAnnotation

Satz erkannter Entitätsmerkmale

JSON-Darstellung
{
  "mid": string,
  "locale": string,
  "description": string,
  "score": number,
  "confidence": number,
  "topicality": number,
  "boundingPoly": {
    object (BoundingPoly)
  },
  "properties": [
    {
      object (Property)
    }
  ]
}
Felder
mid

string

Intransparente Entitäts-ID Einige IDs sind möglicherweise in der Google Knowledge Graph Search API verfügbar.

locale

string

Der Sprachcode für die Sprache, in der die Entität description geschrieben wurde.

description

string

Entitätstextbeschreibungen in ihrer locale-Sprache

score

number

Gesamtwert des Ergebnisses. Bereich [0, 1].

confidence
(deprecated)

number

Eingestellt. Verwenden Sie stattdessen score. Die Genauigkeit der Entitätserkennung in einem Bild. Beispielsweise stellt bei einem Bild, in dem die Entität "Eiffelturm" erkannt wird, dieses Feld die Konfidenz dar, dass sich im Abfragebild ein Turm befindet. Bereich [0, 1].

topicality

number

Die Relevanz des ICA-Labels (Image Content Annotation) für das Bild. Zum Beispiel ist die Relevanz von "Turm" für ein Bild, das den erkannten "Eiffelturm" enthält, wahrscheinlich höher als für ein Bild, das ein erkanntes entferntes, hoch aufragendes Gebäude enthält. Dabei kann die Konfidenz, dass es in jedem Bild einen Turm gibt, gleich sein. Bereich [0, 1].

boundingPoly

object (BoundingPoly)

Bildbereich, zu dem diese Entität gehört. Nicht für LABEL_DETECTION-Funktionen erstellt.

properties[]

object (Property)

Einige Entitäten verfügen möglicherweise über optionale, vom Nutzer angegebene Property-Felder (Name/Wert), z. B. einen Wert oder einen String, der die Entität qualifiziert.

BoundingPoly

Ein Begrenzungspolygon für die erkannte Bildanmerkung

JSON-Darstellung
{
  "vertices": [
    {
      object (Vertex)
    }
  ],
  "normalizedVertices": [
    {
      object (NormalizedVertex)
    }
  ]
}
Felder
vertices[]

object (Vertex)

Die Eckpunkte des Begrenzungspolygons

normalizedVertices[]

object (NormalizedVertex)

Das Eckpolygon normalisierte Eckpunkte.

Vertex

Ein Scheitelpunkt repräsentiert einen 2D-Punkt im Bild. HINWEIS: Die Scheitelpunktkoordinaten haben den gleichen Maßstab wie das Originalbild.

JSON-Darstellung
{
  "x": integer,
  "y": integer
}
Felder
x

integer

X-Koordinate

y

integer

Y-Koordinate

NormalizedVertex

Ein Scheitelpunkt repräsentiert einen 2D-Punkt im Bild. HINWEIS: Die normalisierten Eckpunktkoordinaten sind relativ zum Originalbild und reichen von 0 bis 1.

JSON-Darstellung
{
  "x": number,
  "y": number
}
Felder
x

number

X-Koordinate

y

number

Y-Koordinate

Attribut

Eine Property besteht aus einem vom Nutzer bereitgestellten Name-Wert-Paar.

JSON-Darstellung
{
  "name": string,
  "value": string,
  "uint64Value": string
}
Felder
name

string

Name der Eigenschaft

value

string

Wert der Eigenschaft

uint64Value

string

Wert von numerischen Eigenschaften

TextAnnotation

TextAnnotation enthält eine strukturierte Darstellung von mit OCR extrahiertem Text. Die Hierarchie einer mit OCR extrahierten Textstruktur sieht folgendermaßen aus:

TextAnnotation-> Seite -> Block -> Absatz -> Wort -> Symbol

Jede Strukturkomponente ab Seite kann Eigenschaften haben, die erkannte Sprachen, Zeilenumbrüche usw. beschreiben. Weitere Informationen finden Sie in der folgenden Nachrichtendefinition für TextAnnotation.TextProperty.

JSON-Darstellung
{
  "pages": [
    {
      object (Page)
    }
  ],
  "text": string
}
Felder
pages[]

object (Page)

Liste der durch OCR erkannten Seiten

text

string

Auf den Seiten erkannter UTF-8-Text

Seite

Mit OCR erkannte Seite

JSON-Darstellung
{
  "property": {
    object (TextProperty)
  },
  "width": integer,
  "height": integer,
  "blocks": [
    {
      object (Block)
    }
  ],
  "confidence": number
}
Felder
property

object (TextProperty)

Weitere auf der Seite erkannte Informationen

width

integer

Seitenbreite. Bei PDF-Dateien handelt es sich um Punkte. Bei Bildern (einschließlich TIFFs) ist die Einheit Pixel.

height

integer

Seitenhöhe. Bei PDF-Dateien handelt es sich um Punkte. Bei Bildern (einschließlich TIFFs) ist die Einheit Pixel.

blocks[]

object (Block)

Liste von Textblöcken, Bildern usw. auf dieser Seite

confidence

number

Die Konfidenz der OCR-Ergebnisse auf der Seite. Bereich [0, 1].

TextProperty

Zusätzliche Informationen, die bei der Strukturkomponente erkannt wurden

JSON-Darstellung
{
  "detectedLanguages": [
    {
      object (DetectedLanguage)
    }
  ],
  "detectedBreak": {
    object (DetectedBreak)
  }
}
Felder
detectedLanguages[]

object (DetectedLanguage)

Eine Liste der erkannten Sprachen zusammen mit der Konfidenz

detectedBreak

object (DetectedBreak)

Erkannter Anfang oder erkanntes Ende eines Textsegments

DetectedLanguage

Erkannte Sprache für eine Strukturkomponente

JSON-Darstellung
{
  "languageCode": string,
  "confidence": number
}
Felder
languageCode

string

Der BCP-47-Sprachcode, z. B. "en-US" oder "sr-Latn" Weitere Informationen finden Sie unter https://www.unicode.org/reports/tr35/#Unicode_locale_identifier.

confidence

number

Die Konfidenz der erkannten Sprache. Bereich [0, 1].

DetectedBreak

Erkannter Anfang oder erkanntes Ende einer Strukturkomponente

JSON-Darstellung
{
  "type": enum (BreakType),
  "isPrefix": boolean
}
Felder
type

enum (BreakType)

Erkannte Art der Unterbrechung

isPrefix

boolean

Wahr, wenn die Unterbrechung vor dem Element steht

BreakType

Aufzählung zur Angabe der Art der erkannten Unterbrechung. Neue Zeile, Leerzeichen usw.

Enums
UNKNOWN Unbekannte Art von Unterbrechungslabel
SPACE Normales Leerzeichen
SURE_SPACE Sichere Lücke (sehr breit)
EOL_SURE_SPACE Zeilenumbruch
HYPHEN Bindestrich am Ende der Zeile, der im Text nicht vorhanden ist; tritt nicht gleichzeitig mit SPACE, LEADER_SPACE oder LINE_BREAK auf.
LINE_BREAK Zeilenumbruch, der einen Absatz beendet

Block

Logisches Element auf der Seite

JSON-Darstellung
{
  "property": {
    object (TextProperty)
  },
  "boundingBox": {
    object (BoundingPoly)
  },
  "paragraphs": [
    {
      object (Paragraph)
    }
  ],
  "blockType": enum (BlockType),
  "confidence": number
}
Felder
property

object (TextProperty)

Zusätzliche für den Block erkannte Informationen

boundingBox

object (BoundingPoly)

Der Begrenzungsrahmen für den Block. Die Eckpunkte werden in der Reihenfolge von oben links, rechts oben, rechts unten und unten links angeordnet. Wenn eine Drehung des Begrenzungsrahmens erkannt wird, wird die Drehung als „um die obere linke Ecke“ dargestellt, gemäß der Definition des Lesens des Texts in „natürlicher“ Ausrichtung. Beispiel:

  • Wenn der Text horizontal ist, könnte er so aussehen:
    0----1
    |    |
    3----2
  • wenn er um 180 Grad um die linke obere Ecke gedreht wird, wird daraus:
    2----3
    |    |
    1----0

und die Eckpunktreihenfolge ist weiterhin (0, 1, 2, 3).

paragraphs[]

object (Paragraph)

Liste der Absätze in diesem Block (wenn der Block den Typ "Text" hat)

blockType

enum (BlockType)

Erkannter Blocktyp (Text, Bild usw.) für diesen Block

confidence

number

Die Konfidenz der OCR-Ergebnisse für den Block. Bereich [0, 1].

Absatz

Strukturelle Texteinheit, die mehrere Wörter in einer bestimmten Reihenfolge darstellt

JSON-Darstellung
{
  "property": {
    object (TextProperty)
  },
  "boundingBox": {
    object (BoundingPoly)
  },
  "words": [
    {
      object (Word)
    }
  ],
  "confidence": number
}
Felder
property

object (TextProperty)

Zusätzliche für den Absatz erkannte Informationen

boundingBox

object (BoundingPoly)

Der Begrenzungsrahmen für den Absatz. Die Eckpunkte werden in der Reihenfolge von oben links, rechts oben, rechts unten und unten links angeordnet. Wenn eine Drehung des Begrenzungsrahmens erkannt wird, wird die Drehung als „um die obere linke Ecke“ dargestellt, gemäß der Definition des Lesens des Texts in „natürlicher“ Ausrichtung. Beispiel: * Wenn der Text horizontal ist, kann dies so aussehen: 0----1 | | 3----2 * Wenn er um 180 Grad um die obere linke Ecke gedreht wird, wird daraus 2----3 | | 1----0 und die Eckpunktreihenfolge ist weiterhin (0, 1, 2, 3).

words[]

object (Word)

Liste aller Wörter in diesem Absatz

confidence

number

Die Konfidenz der OCR-Ergebnisse für den Absatz. Bereich [0, 1].

Microsoft Word

Darstellung eines Worts

JSON-Darstellung
{
  "property": {
    object (TextProperty)
  },
  "boundingBox": {
    object (BoundingPoly)
  },
  "symbols": [
    {
      object (Symbol)
    }
  ],
  "confidence": number
}
Felder
property

object (TextProperty)

Zusätzliche für das Wort erkannte Informationen

boundingBox

object (BoundingPoly)

Der Begrenzungsrahmen für das Wort. Die Eckpunkte werden in der Reihenfolge von oben links, rechts oben, rechts unten und unten links angeordnet. Wenn eine Drehung des Begrenzungsrahmens erkannt wird, wird die Drehung als „um die obere linke Ecke“ dargestellt, gemäß der Definition des Lesens des Texts in „natürlicher“ Ausrichtung. Beispiel: * Wenn der Text horizontal ist, kann dies so aussehen: 0----1 | | 3----2 * Wenn er um 180 Grad um die obere linke Ecke gedreht wird, wird daraus 2----3 | | 1----0 und die Eckpunktreihenfolge ist weiterhin (0, 1, 2, 3).

symbols[]

object (Symbol)

Liste der Symbole im Wort. Die Reihenfolge der Symbole folgt der natürlichen Lesereihenfolge.

confidence

number

Die Konfidenz der OCR-Ergebnisse für das Wort. Bereich [0, 1].

Symbole

Eine einzelne Symboldarstellung

JSON-Darstellung
{
  "property": {
    object (TextProperty)
  },
  "boundingBox": {
    object (BoundingPoly)
  },
  "text": string,
  "confidence": number
}
Felder
property

object (TextProperty)

Zusätzliche für das Symbol erkannte Informationen

boundingBox

object (BoundingPoly)

Der Begrenzungsrahmen für das Symbol. Die Eckpunkte werden in der Reihenfolge von oben links, rechts oben, rechts unten und unten links angeordnet. Wenn eine Drehung des Begrenzungsrahmens erkannt wird, wird die Drehung als „um die obere linke Ecke“ dargestellt, gemäß der Definition des Lesens des Texts in „natürlicher“ Ausrichtung. Beispiel: * Wenn der Text horizontal ist, kann dies so aussehen: 0----1 | | 3----2 * Wenn er um 180 Grad um die obere linke Ecke gedreht wird, wird daraus 2----3 | | 1----0 und die Eckpunktreihenfolge ist weiterhin (0, 1, 2, 3).

text

string

Die tatsächliche UTF-8-Darstellung des Symbols

confidence

number

Die Konfidenz der OCR-Ergebnisse für das Symbol. Bereich [0, 1].

BlockType

Typ eines Blocks (Text, Bild usw.), der durch OCR identifiziert wurde.

Enums
UNKNOWN Unbekannter Blocktyp
TEXT Normaler Textblock
TABLE Tabellenblock
PICTURE Bildblock
RULER Feld mit horizontaler/vertikaler Linie
BARCODE Barcodeblock

ImageAnnotationContext

Wenn ein Bild aus einer Datei (z. B. einer PDF-Datei) erstellt wurde, enthält diese Nachricht Informationen zur Quelle des Bildes.

JSON-Darstellung
{
  "uri": string,
  "pageNumber": integer
}
Felder
uri

string

Der URI der Datei, die zur Erstellung des Bildes verwendet wurde.

pageNumber

integer

Falls es sich um eine PDF- oder TIFF-Datei handelt, gibt dieses Feld die Seitenzahl in der Datei an, die zum Erstellen des Bildes verwendet wurde.