Package google.cloud.vision.v1

Index

ImageAnnotator

Dienst, der Google Cloud Vision API-Erkennungsaufgaben für Kundenbilder durchführt, z. B. Gesichts-, Landmark-, Logo-, Label- und Texterkennung. Der ImageAnnotator-Dienst liefert erkannte Entitäten aus den Bildern.

BatchAnnotateFiles

rpc BatchAnnotateFiles(BatchAnnotateFilesRequest) returns (BatchAnnotateFilesResponse)

Dienst, der für einen Batch von Dateien Bilderkennung und -annotation ausführt. Jetzt werden nur „application/pdf“, „image/tiff“ und „image/gif“ unterstützt.

Dieser Dienst extrahiert maximal fünf (Kunden können angeben, welche fünf in AnnotateFileRequest.pages) Frames (gif) oder Seiten (PDF oder TIFF) aus jeder bereitgestellten Datei enthalten sind. Für jedes extrahierte Bild werden Erkennung und Annotation durchgeführt.

Autorisierungsbereiche

Erfordert einen der folgenden OAuth-Bereiche:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision
BatchAnnotateImages

rpc BatchAnnotateImages(BatchAnnotateImagesRequest) returns (BatchAnnotateImagesResponse)

Führen Sie Bilderkennung und -anmerkung für einen Satz von Bildern aus.

Autorisierungsbereiche

Erfordert einen der folgenden OAuth-Bereiche:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision

AnnotateFileRequest

Eine Anfrage zum Annotieren einer einzelnen Datei, z. B. einer PDF-, TIFF- oder GIF-Datei.

Felder
input_config

InputConfig

Erforderlich. Informationen zur Eingabedatei.

features[]

Feature

Erforderlich. Die angeforderten Funktionen

image_context

ImageContext

Zusätzlicher Kontext, der gegebenenfalls die Bilder in der Datei enthält

pages[]

int32

Seiten der Datei, die eine Bildanmerkung ausführt.

Die Seiten beginnen bei 1. Wir gehen davon aus, dass die erste Seite der Datei Seite 1 ist. Pro Anfrage werden maximal 5 Seiten unterstützt. Seiten können negativ sein.

Seite 1 steht für die erste Seite. Seite 2 steht für die zweite Seite. Seite 1 bedeutet die letzte Seite. Seite 2 bedeutet, dass die zweite Seite die letzte ist.

Wenn die Datei das GIF-Format anstelle von PDF oder TIFF darstellt, bezieht sich die Seite auf GIF-Frames.

Wenn dieses Feld leer ist, führt der Dienst standardmäßig eine Bildanmerkung für die ersten fünf Seiten der Datei aus.

AnnotateFileResponse

Antwort auf eine einzelne Dateiannotationsanfrage Eine Datei kann ein oder mehrere Bilder enthalten, die jeweils eigene Antworten haben.

Felder
input_config

InputConfig

Informationen zur Datei, für die diese Antwort generiert wird.

responses[]

AnnotateImageResponse

Einzelne Antworten auf Bilder in der Datei. Dieses Feld ist leer, wenn das Feld error festgelegt ist.

total_pages

int32

Dieses Feld gibt die Gesamtzahl der Seiten in der Datei an.

error

Status

Wenn festgelegt, stellt die Fehlermeldung für die fehlgeschlagene Anfrage dar. Das Feld responses wird in diesem Fall nicht festgelegt.

AnnotateImageRequest

Anfrage zum Ausführen von Google Cloud Vision API-Aufgaben für ein von Nutzern bereitgestelltes Bild mit von Nutzern angeforderten Funktionen und Kontextinformationen.

Felder
image

Image

Das zu verarbeitende Bild

features[]

Feature

Die angeforderten Funktionen

image_context

ImageContext

Zusätzlicher Kontext, den das Bild umfassen kann

AnnotateImageResponse

Antworten auf eine Bildanmerkungsanfrage

Felder
text_annotations[]

EntityAnnotation

Falls vorhanden, wurde die Texterkennung (OCR) erfolgreich abgeschlossen.

full_text_annotation

TextAnnotation

Falls vorhanden, wurde die Erkennung von Text (OCR) oder Dokumenttext (OCR) erfolgreich abgeschlossen. Diese Anmerkung stellt die strukturelle Hierarchie für den OCR-Erkennungstext bereit.

error

Status

Die Fehlermeldung für den Vorgang, falls diese festgelegt ist. Beachten Sie, dass die eingetragenen Bildanmerkungen garantiert korrekt sind, auch wenn ein error angezeigt wird.

context

ImageAnnotationContext

Falls vorhanden, sind Kontextinformationen erforderlich, um zu verstehen, woher dieses Bild stammt.

BatchAnnotateFilesRequest

Eine Liste mit Anfragen zum Annotieren von Dateien mithilfe der BatchAnnotateFiles API.

Felder
requests[]

AnnotateFileRequest

Erforderlich. Die Liste der Anfrageanmerkungsanfragen Derzeit unterstützen wir in BatchAnnotateFilesRequest nur eine AnnotateFileRequest.

parent

string

Optional. Zielprojekt und Standort zum Anrufen festlegen.

Format: projects/{project-id}/locations/{location-id}

Wenn kein übergeordnetes Element angegeben ist, wird automatisch eine Region ausgewählt.

Unterstützte Standort-IDs: us: nur USA, asia: Ostasien, z. B. Japan, Taiwan, eu: die Europäische Union.

Beispiel: projects/project-A/locations/eu.

BatchAnnotateFilesResponse

Eine Liste von Antworten zu Dateiannotationen.

Felder
responses[]

AnnotateFileResponse

Die Liste der Antworten zur Dateiannotation, wobei jede Antwort für jede AnnotateFileRequest in BatchAnnotateFilesRequest entspricht.

BatchAnnotateImagesRequest

Mehrere Bildanmerkungsanfragen werden in einem einzelnen Dienstaufruf zusammengefasst.

Felder
requests[]

AnnotateImageRequest

Erforderlich. Individuelle Bildanmerkungsanfragen für diesen Satz

parent

string

Optional. Zielprojekt und Standort zum Anrufen festlegen.

Format: projects/{project-id}/locations/{location-id}

Wenn kein übergeordnetes Element angegeben ist, wird automatisch eine Region ausgewählt.

Unterstützte Standort-IDs: us: nur USA, asia: Ostasien, z. B. Japan, Taiwan, eu: die Europäische Union.

Beispiel: projects/project-A/locations/eu.

BatchAnnotateImagesResponse

Antwort auf eine Anmerkungsanfrage für Sätze von Bildern

Felder
responses[]

AnnotateImageResponse

Individuelle Antworten auf Bildanmerkungsanfragen innerhalb des Satzes

Block

Logisches Element auf der Seite

Felder
property

TextProperty

Zusätzliche für den Block erkannte Informationen

bounding_box

BoundingPoly

Der Begrenzungsrahmen für den Block. Die Eckpunkte werden in der Reihenfolge von oben links, rechts oben, rechts unten und unten links angeordnet. Wenn eine Drehung des Begrenzungsrahmens erkannt wird, wird die Drehung als „um die obere linke Ecke“ dargestellt, gemäß der Definition des Lesens des Texts in „natürlicher“ Ausrichtung. Beispiel:

  • Wenn der Text horizontal ist, könnte er so aussehen:
    0----1
    |    |
    3----2
  • wenn er um 180 Grad um die linke obere Ecke gedreht wird, wird daraus:
    2----3
    |    |
    1----0

und die Eckpunktreihenfolge ist weiterhin (0, 1, 2, 3).

paragraphs[]

Paragraph

Liste der Absätze in diesem Block (wenn der Block den Typ "Text" hat)

block_type

BlockType

Erkannter Blocktyp (Text, Bild usw.) für diesen Block

confidence

float

Die Konfidenz der OCR-Ergebnisse für den Block. Bereich [0, 1].

BlockType

Typ eines Blocks (Text, Bild usw.), der durch OCR identifiziert wurde.

Enums
UNKNOWN Unbekannter Blocktyp
TEXT Normaler Textblock
TABLE Tabellenblock
PICTURE Bildblock
RULER Feld mit horizontaler/vertikaler Linie
BARCODE Barcodeblock

BoundingPoly

Ein Begrenzungspolygon für die erkannte Bildanmerkung

Felder
vertices[]

Vertex

Die Eckpunkte des Begrenzungspolygons

normalized_vertices[]

NormalizedVertex

Das Eckpolygon normalisierte Eckpunkte.

EntityAnnotation

Satz erkannter Entitätsmerkmale

Felder
mid

string

Intransparente Entitäts-ID Einige IDs sind möglicherweise in der Google Knowledge Graph Search API verfügbar.

locale

string

Der Sprachcode für die Sprache, in der die Entität description geschrieben wurde.

description

string

Entitätstextbeschreibungen in ihrer locale-Sprache

score

float

Gesamtwert des Ergebnisses. Bereich [0, 1].

confidence
(deprecated)

float

Eingestellt. Verwenden Sie stattdessen score. Die Genauigkeit der Entitätserkennung in einem Bild. Beispielsweise stellt bei einem Bild, in dem die Entität "Eiffelturm" erkannt wird, dieses Feld die Konfidenz dar, dass sich im Abfragebild ein Turm befindet. Bereich [0, 1].

topicality

float

Die Relevanz des ICA-Labels (Image Content Annotation) für das Bild. Zum Beispiel ist die Relevanz von "Turm" für ein Bild, das den erkannten "Eiffelturm" enthält, wahrscheinlich höher als für ein Bild, das ein erkanntes entferntes, hoch aufragendes Gebäude enthält. Dabei kann die Konfidenz, dass es in jedem Bild einen Turm gibt, gleich sein. Bereich [0, 1].

bounding_poly

BoundingPoly

Bildbereich, zu dem diese Entität gehört. Nicht für LABEL_DETECTION-Funktionen erstellt.

properties[]

Property

Einige Entitäten verfügen möglicherweise über optionale, vom Nutzer angegebene Property-Felder (Name/Wert), z. B. einen Wert oder einen String, der die Entität qualifiziert.

Funktion

Der Typ der durchzuführenden Google Cloud Vision API-Erkennung und die maximale Anzahl von Ergebnissen, die für diesen Typ zurückgegeben werden sollen. In der Liste features können mehrere Feature-Objekte angegeben werden.

Felder
type

Type

Funktionstyp

model

string

Das für die Funktion zu verwendende Modell. Unterstützte Werte: "builtin/stable" (Standardeinstellung, wenn nicht festgelegt) und "builtin/latest". DOCUMENT_TEXT_DETECTION und TEXT_DETECTION unterstützen auch „builtin/weekly“ für die wöchentlich aktualisierte Bleeding-Edge-Version.

Typ

Typ der Google Cloud Vision API-Funktion, die extrahiert werden soll.

Enums
TYPE_UNSPECIFIED Nicht angegebener Funktionstyp
TEXT_DETECTION Texterkennung/Optische Zeichenerkennung (OCR) ausführen Die Texterkennung ist für Textbereiche in einem größeren Bild optimiert. Wenn das Bild ein Dokument ist, verwenden Sie stattdessen DOCUMENT_TEXT_DETECTION.
DOCUMENT_TEXT_DETECTION OCR für Dokument mit dichtem Text ausführen. Hat Vorrang, wenn DOCUMENT_TEXT_DETECTION und TEXT_DETECTION vorhanden sind.

Bild

Kundenbild, für das Google Cloud Vision API-Aufgaben ausgeführt werden sollen

Felder
content

bytes

Bildinhalt, dargestellt als ein Stream von Byte. Hinweis: Wie bei allen bytes-Feldern verwenden auch Protokollpuffer eine reine Binärdarstellung, während JSON-Darstellungen Base64 verwenden.

Derzeit funktioniert dieses Feld nur für BatchAnnotateImages-Anfragen.

ImageAnnotationContext

Wenn ein Bild aus einer Datei (z. B. einer PDF-Datei) erstellt wurde, enthält diese Nachricht Informationen zur Quelle des Bildes.

Felder
uri

string

Der URI der Datei, die zur Erstellung des Bildes verwendet wurde.

page_number

int32

Falls es sich um eine PDF- oder TIFF-Datei handelt, gibt dieses Feld die Seitenzahl in der Datei an, die zum Erstellen des Bildes verwendet wurde.

ImageContext

Bildkontext- bzw. funktionsspezifische Parameter

Felder
language_hints[]

string

Liste der Sprachen, die für TEXT_DETECTION verwendet werden sollen Ein leerer Wert liefert in den meisten Fällen die besten Ergebnisse, weil dadurch die automatische Spracherkennung aktiviert wird. Bei Sprachen, die auf dem lateinischen Alphabet basieren, ist die Einstellung language_hints nicht erforderlich. In seltenen Fällen werden durch das Festlegen eines Hinweises verbesserte Ergebnisse erzielt, wenn die Sprache des Bildtextes bekannt ist. Falls der Hinweis jedoch falsch ist, behindert er die Texterkennung erheblich. Wenn eine oder mehrere der angegebenen Sprachen nicht zu den unterstützten Sprachen zählen, gibt die Texterkennung einen Fehler zurück.

text_detection_params

TextDetectionParams

Parameter für die Text- und Dokumenttexterkennung.

InputConfig

Der gewünschte Eingabeort und die Metadaten.

Felder
content

bytes

Dateiinhalt, dargestellt als ein Bytestream. Hinweis: Wie bei allen bytes-Feldern verwenden auch Protokollpuffer eine reine Binärdarstellung, während JSON-Darstellungen Base64 verwenden.

Derzeit funktioniert dieses Feld nur für BatchAnnotateFiles-Anfragen.

mime_type

string

Der Typ der Datei. Im Moment werden nur „application/pdf“, „image/tiff“ und „image/gif“ unterstützt. Platzhalter werden nicht unterstützt.

NormalizedVertex

Ein Scheitelpunkt repräsentiert einen 2D-Punkt im Bild. HINWEIS: Die normalisierten Eckpunktkoordinaten sind relativ zum Originalbild und reichen von 0 bis 1.

Felder
x

float

X-Koordinate

y

float

Y-Koordinate

Seite

Mit OCR erkannte Seite

Felder
property

TextProperty

Weitere auf der Seite erkannte Informationen

width

int32

Seitenbreite. Bei PDF-Dateien handelt es sich um Punkte. Bei Bildern (einschließlich TIFFs) ist die Einheit Pixel.

height

int32

Seitenhöhe. Bei PDF-Dateien handelt es sich um Punkte. Bei Bildern (einschließlich TIFFs) ist die Einheit Pixel.

blocks[]

Block

Liste von Textblöcken, Bildern usw. auf dieser Seite

confidence

float

Die Konfidenz der OCR-Ergebnisse auf der Seite. Bereich [0, 1].

Absatz

Strukturelle Texteinheit, die mehrere Wörter in einer bestimmten Reihenfolge darstellt

Felder
property

TextProperty

Zusätzliche für den Absatz erkannte Informationen

bounding_box

BoundingPoly

Der Begrenzungsrahmen für den Absatz. Die Eckpunkte werden in der Reihenfolge von oben links, rechts oben, rechts unten und unten links angeordnet. Wenn eine Drehung des Begrenzungsrahmens erkannt wird, wird die Drehung als „um die obere linke Ecke“ dargestellt, gemäß der Definition des Lesens des Texts in „natürlicher“ Ausrichtung. Beispiel: * Wenn der Text horizontal ist, kann dies so aussehen: 0----1 | | 3----2 * Wenn er um 180 Grad um die obere linke Ecke gedreht wird, wird daraus 2----3 | | 1----0 und die Eckpunktreihenfolge ist weiterhin (0, 1, 2, 3).

words[]

Word

Liste aller Wörter in diesem Absatz

confidence

float

Die Konfidenz der OCR-Ergebnisse für den Absatz. Bereich [0, 1].

Attribut

Eine Property besteht aus einem vom Nutzer bereitgestellten Name-Wert-Paar.

Felder
name

string

Name der Eigenschaft

value

string

Wert der Eigenschaft

uint64_value

uint64

Wert von numerischen Eigenschaften

Symbole

Eine einzelne Symboldarstellung

Felder
property

TextProperty

Zusätzliche für das Symbol erkannte Informationen

bounding_box

BoundingPoly

Der Begrenzungsrahmen für das Symbol. Die Eckpunkte werden in der Reihenfolge von oben links, rechts oben, rechts unten und unten links angeordnet. Wenn eine Drehung des Begrenzungsrahmens erkannt wird, wird die Drehung als „um die obere linke Ecke“ dargestellt, gemäß der Definition des Lesens des Texts in „natürlicher“ Ausrichtung. Beispiel: * Wenn der Text horizontal ist, kann dies so aussehen: 0----1 | | 3----2 * Wenn er um 180 Grad um die obere linke Ecke gedreht wird, wird daraus 2----3 | | 1----0 und die Eckpunktreihenfolge ist weiterhin (0, 1, 2, 3).

text

string

Die tatsächliche UTF-8-Darstellung des Symbols

confidence

float

Die Konfidenz der OCR-Ergebnisse für das Symbol. Bereich [0, 1].

TextAnnotation

TextAnnotation enthält eine strukturierte Darstellung von mit OCR extrahiertem Text. Die Hierarchie einer mit OCR extrahierten Textstruktur sieht folgendermaßen aus:

TextAnnotation -> Seite -> Block -> Absatz -> Wort -> Symbol

Jede Strukturkomponente ab Seite kann Eigenschaften haben, die erkannte Sprachen, Zeilenumbrüche usw. beschreiben. Weitere Informationen finden Sie in der folgenden Nachrichtendefinition für TextAnnotation.TextProperty.

Felder
pages[]

Page

Liste der durch OCR erkannten Seiten

text

string

Auf den Seiten erkannter UTF-8-Text

DetectedBreak

Erkannter Anfang oder erkanntes Ende einer Strukturkomponente

Felder
type

BreakType

Erkannte Art der Unterbrechung

is_prefix

bool

Wahr, wenn die Unterbrechung vor dem Element steht

BreakType

Aufzählung zur Angabe der Art der erkannten Unterbrechung. Neue Zeile, Leerzeichen usw.

Enums
UNKNOWN Unbekannte Art von Unterbrechungslabel
SPACE Normales Leerzeichen
SURE_SPACE Sichere Lücke (sehr breit)
EOL_SURE_SPACE Zeilenumbruch
HYPHEN Bindestrich am Ende der Zeile, der im Text nicht vorhanden ist; tritt nicht gleichzeitig mit SPACE, LEADER_SPACE oder LINE_BREAK auf.
LINE_BREAK Zeilenumbruch, der einen Absatz beendet

DetectedLanguage

Erkannte Sprache für eine Strukturkomponente

Felder
language_code

string

Der BCP-47-Sprachcode, z. B. "en-US" oder "sr-Latn" Weitere Informationen finden Sie unter https://www.unicode.org/reports/tr35/#Unicode_locale_identifier.

confidence

float

Die Konfidenz der erkannten Sprache. Bereich [0, 1].

TextProperty

Zusätzliche Informationen, die bei der Strukturkomponente erkannt wurden

Felder
detected_languages[]

DetectedLanguage

Eine Liste der erkannten Sprachen zusammen mit der Konfidenz

detected_break

DetectedBreak

Erkannter Anfang oder erkanntes Ende eines Textsegments

TextDetectionParams

Parameter für Texterkennungen. Wird verwendet, um die Funktionen TEXT_DETECTION und DOCUMENT_TEXT_DETECTION zu steuern.

Felder
enable_text_detection_confidence_score

bool

Standardmäßig enthält die Cloud Vision API nur den Konfidenzwert für das Ergebnis von DOCUMENT_TEXT_DETECTION. Setzen Sie das Flag auf „true“, um auch den Konfidenzwert für TEXT_DETECTION einzubeziehen.

advanced_ocr_options[]

string

Eine Liste mit erweiterten OCR-Optionen zum Optimieren des OCR-Verhaltens.

Vertex

Ein Scheitelpunkt repräsentiert einen 2D-Punkt im Bild. HINWEIS: Die Scheitelpunktkoordinaten haben den gleichen Maßstab wie das Originalbild.

Felder
x

int32

X-Koordinate

y

int32

Y-Koordinate

Microsoft Word

Darstellung eines Worts

Felder
property

TextProperty

Zusätzliche für das Wort erkannte Informationen

bounding_box

BoundingPoly

Der Begrenzungsrahmen für das Wort. Die Eckpunkte werden in der Reihenfolge von oben links, rechts oben, rechts unten und unten links angeordnet. Wenn eine Drehung des Begrenzungsrahmens erkannt wird, wird die Drehung als „um die obere linke Ecke“ dargestellt, gemäß der Definition des Lesens des Texts in „natürlicher“ Ausrichtung. Beispiel: * Wenn der Text horizontal ist, kann dies so aussehen: 0----1 | | 3----2 * Wenn er um 180 Grad um die obere linke Ecke gedreht wird, wird daraus 2----3 | | 1----0 und die Eckpunktreihenfolge ist weiterhin (0, 1, 2, 3).

symbols[]

Symbol

Liste der Symbole im Wort. Die Reihenfolge der Symbole folgt der natürlichen Lesereihenfolge.

confidence

float

Die Konfidenz der OCR-Ergebnisse für das Wort. Bereich [0, 1].