Index
ImageAnnotator
(Benutzeroberfläche)AnnotateFileRequest
(Meldung)AnnotateFileResponse
(Meldung)AnnotateImageRequest
(Meldung)AnnotateImageResponse
(Meldung)BatchAnnotateFilesRequest
(Meldung)BatchAnnotateFilesResponse
(Meldung)BatchAnnotateImagesRequest
(Meldung)BatchAnnotateImagesResponse
(Meldung)Block
(Meldung)Block.BlockType
(Aufzählung)BoundingPoly
(Meldung)EntityAnnotation
(Meldung)Feature
(Meldung)Feature.Type
(Aufzählung)Image
(Meldung)ImageAnnotationContext
(Meldung)ImageContext
(Meldung)InputConfig
(Meldung)NormalizedVertex
(Meldung)Page
(Meldung)Paragraph
(Meldung)Property
(Meldung)Symbol
(Meldung)TextAnnotation
(Meldung)TextAnnotation.DetectedBreak
(Meldung)TextAnnotation.DetectedBreak.BreakType
(Aufzählung)TextAnnotation.DetectedLanguage
(Meldung)TextAnnotation.TextProperty
(Meldung)TextDetectionParams
(Meldung)Vertex
(Meldung)Word
(Meldung)
ImageAnnotator
Dienst, der Google Cloud Vision API-Erkennungsaufgaben für Kundenbilder durchführt, z. B. Gesichts-, Landmark-, Logo-, Label- und Texterkennung. Der ImageAnnotator-Dienst liefert erkannte Entitäten aus den Bildern.
BatchAnnotateFiles |
---|
Dienst, der für einen Batch von Dateien Bilderkennung und -annotation ausführt. Jetzt werden nur „application/pdf“, „image/tiff“ und „image/gif“ unterstützt. Dieser Dienst extrahiert maximal fünf (Kunden können angeben, welche fünf in AnnotateFileRequest.pages) Frames (gif) oder Seiten (PDF oder TIFF) aus jeder bereitgestellten Datei enthalten sind. Für jedes extrahierte Bild werden Erkennung und Annotation durchgeführt.
|
BatchAnnotateImages |
---|
Führen Sie Bilderkennung und -anmerkung für einen Satz von Bildern aus.
|
AnnotateFileRequest
Eine Anfrage zum Annotieren einer einzelnen Datei, z. B. einer PDF-, TIFF- oder GIF-Datei.
Felder | |
---|---|
input_config |
Erforderlich. Informationen zur Eingabedatei. |
features[] |
Erforderlich. Die angeforderten Funktionen |
image_context |
Zusätzlicher Kontext, der gegebenenfalls die Bilder in der Datei enthält |
pages[] |
Seiten der Datei, die eine Bildanmerkung ausführt. Die Seiten beginnen bei 1. Wir gehen davon aus, dass die erste Seite der Datei Seite 1 ist. Pro Anfrage werden maximal 5 Seiten unterstützt. Seiten können negativ sein. Seite 1 steht für die erste Seite. Seite 2 steht für die zweite Seite. Seite 1 bedeutet die letzte Seite. Seite 2 bedeutet, dass die zweite Seite die letzte ist. Wenn die Datei das GIF-Format anstelle von PDF oder TIFF darstellt, bezieht sich die Seite auf GIF-Frames. Wenn dieses Feld leer ist, führt der Dienst standardmäßig eine Bildanmerkung für die ersten fünf Seiten der Datei aus. |
AnnotateFileResponse
Antwort auf eine einzelne Dateiannotationsanfrage Eine Datei kann ein oder mehrere Bilder enthalten, die jeweils eigene Antworten haben.
Felder | |
---|---|
input_config |
Informationen zur Datei, für die diese Antwort generiert wird. |
responses[] |
Einzelne Antworten auf Bilder in der Datei. Dieses Feld ist leer, wenn das Feld |
total_pages |
Dieses Feld gibt die Gesamtzahl der Seiten in der Datei an. |
error |
Wenn festgelegt, stellt die Fehlermeldung für die fehlgeschlagene Anfrage dar. Das Feld |
AnnotateImageRequest
Anfrage zum Ausführen von Google Cloud Vision API-Aufgaben für ein von Nutzern bereitgestelltes Bild mit von Nutzern angeforderten Funktionen und Kontextinformationen.
Felder | |
---|---|
image |
Das zu verarbeitende Bild |
features[] |
Die angeforderten Funktionen |
image_context |
Zusätzlicher Kontext, den das Bild umfassen kann |
AnnotateImageResponse
Antworten auf eine Bildanmerkungsanfrage
Felder | |
---|---|
text_annotations[] |
Falls vorhanden, wurde die Texterkennung (OCR) erfolgreich abgeschlossen. |
full_text_annotation |
Falls vorhanden, wurde die Erkennung von Text (OCR) oder Dokumenttext (OCR) erfolgreich abgeschlossen. Diese Anmerkung stellt die strukturelle Hierarchie für den OCR-Erkennungstext bereit. |
error |
Die Fehlermeldung für den Vorgang, falls diese festgelegt ist. Beachten Sie, dass die eingetragenen Bildanmerkungen garantiert korrekt sind, auch wenn ein |
context |
Falls vorhanden, sind Kontextinformationen erforderlich, um zu verstehen, woher dieses Bild stammt. |
BatchAnnotateFilesRequest
Eine Liste mit Anfragen zum Annotieren von Dateien mithilfe der BatchAnnotateFiles API.
Felder | |
---|---|
requests[] |
Erforderlich. Die Liste der Anfrageanmerkungsanfragen Derzeit unterstützen wir in BatchAnnotateFilesRequest nur eine AnnotateFileRequest. |
parent |
Optional. Zielprojekt und Standort zum Anrufen festlegen. Format: Wenn kein übergeordnetes Element angegeben ist, wird automatisch eine Region ausgewählt. Unterstützte Standort-IDs: Beispiel: |
BatchAnnotateFilesResponse
Eine Liste von Antworten zu Dateiannotationen.
Felder | |
---|---|
responses[] |
Die Liste der Antworten zur Dateiannotation, wobei jede Antwort für jede AnnotateFileRequest in BatchAnnotateFilesRequest entspricht. |
BatchAnnotateImagesRequest
Mehrere Bildanmerkungsanfragen werden in einem einzelnen Dienstaufruf zusammengefasst.
Felder | |
---|---|
requests[] |
Erforderlich. Individuelle Bildanmerkungsanfragen für diesen Satz |
parent |
Optional. Zielprojekt und Standort zum Anrufen festlegen. Format: Wenn kein übergeordnetes Element angegeben ist, wird automatisch eine Region ausgewählt. Unterstützte Standort-IDs: Beispiel: |
BatchAnnotateImagesResponse
Antwort auf eine Anmerkungsanfrage für Sätze von Bildern
Felder | |
---|---|
responses[] |
Individuelle Antworten auf Bildanmerkungsanfragen innerhalb des Satzes |
Block
Logisches Element auf der Seite
Felder | |
---|---|
property |
Zusätzliche für den Block erkannte Informationen |
bounding_box |
Der Begrenzungsrahmen für den Block. Die Eckpunkte werden in der Reihenfolge von oben links, rechts oben, rechts unten und unten links angeordnet. Wenn eine Drehung des Begrenzungsrahmens erkannt wird, wird die Drehung als „um die obere linke Ecke“ dargestellt, gemäß der Definition des Lesens des Texts in „natürlicher“ Ausrichtung. Beispiel:
und die Eckpunktreihenfolge ist weiterhin (0, 1, 2, 3). |
paragraphs[] |
Liste der Absätze in diesem Block (wenn der Block den Typ "Text" hat) |
block_type |
Erkannter Blocktyp (Text, Bild usw.) für diesen Block |
confidence |
Die Konfidenz der OCR-Ergebnisse für den Block. Bereich [0, 1]. |
BlockType
Typ eines Blocks (Text, Bild usw.), der durch OCR identifiziert wurde.
Enums | |
---|---|
UNKNOWN |
Unbekannter Blocktyp |
TEXT |
Normaler Textblock |
TABLE |
Tabellenblock |
PICTURE |
Bildblock |
RULER |
Feld mit horizontaler/vertikaler Linie |
BARCODE |
Barcodeblock |
BoundingPoly
Ein Begrenzungspolygon für die erkannte Bildanmerkung
Felder | |
---|---|
vertices[] |
Die Eckpunkte des Begrenzungspolygons |
normalized_vertices[] |
Das Eckpolygon normalisierte Eckpunkte. |
EntityAnnotation
Satz erkannter Entitätsmerkmale
Felder | |
---|---|
mid |
Intransparente Entitäts-ID Einige IDs sind möglicherweise in der Google Knowledge Graph Search API verfügbar. |
locale |
Der Sprachcode für die Sprache, in der die Entität |
description |
Entitätstextbeschreibungen in ihrer |
score |
Gesamtwert des Ergebnisses. Bereich [0, 1]. |
confidence |
Eingestellt. Verwenden Sie stattdessen |
topicality |
Die Relevanz des ICA-Labels (Image Content Annotation) für das Bild. Zum Beispiel ist die Relevanz von "Turm" für ein Bild, das den erkannten "Eiffelturm" enthält, wahrscheinlich höher als für ein Bild, das ein erkanntes entferntes, hoch aufragendes Gebäude enthält. Dabei kann die Konfidenz, dass es in jedem Bild einen Turm gibt, gleich sein. Bereich [0, 1]. |
bounding_poly |
Bildbereich, zu dem diese Entität gehört. Nicht für |
properties[] |
Einige Entitäten verfügen möglicherweise über optionale, vom Nutzer angegebene |
Funktion
Der Typ der durchzuführenden Google Cloud Vision API-Erkennung und die maximale Anzahl von Ergebnissen, die für diesen Typ zurückgegeben werden sollen. In der Liste features
können mehrere Feature
-Objekte angegeben werden.
Felder | |
---|---|
type |
Funktionstyp |
model |
Das für die Funktion zu verwendende Modell. Unterstützte Werte: "builtin/stable" (Standardeinstellung, wenn nicht festgelegt) und "builtin/latest". |
Typ
Typ der Google Cloud Vision API-Funktion, die extrahiert werden soll.
Enums | |
---|---|
TYPE_UNSPECIFIED |
Nicht angegebener Funktionstyp |
TEXT_DETECTION |
Texterkennung/Optische Zeichenerkennung (OCR) ausführen Die Texterkennung ist für Textbereiche in einem größeren Bild optimiert. Wenn das Bild ein Dokument ist, verwenden Sie stattdessen DOCUMENT_TEXT_DETECTION . |
DOCUMENT_TEXT_DETECTION |
OCR für Dokument mit dichtem Text ausführen. Hat Vorrang, wenn DOCUMENT_TEXT_DETECTION und TEXT_DETECTION vorhanden sind. |
Bild
Kundenbild, für das Google Cloud Vision API-Aufgaben ausgeführt werden sollen
Felder | |
---|---|
content |
Bildinhalt, dargestellt als ein Stream von Byte. Hinweis: Wie bei allen Derzeit funktioniert dieses Feld nur für BatchAnnotateImages-Anfragen. |
ImageAnnotationContext
Wenn ein Bild aus einer Datei (z. B. einer PDF-Datei) erstellt wurde, enthält diese Nachricht Informationen zur Quelle des Bildes.
Felder | |
---|---|
uri |
Der URI der Datei, die zur Erstellung des Bildes verwendet wurde. |
page_number |
Falls es sich um eine PDF- oder TIFF-Datei handelt, gibt dieses Feld die Seitenzahl in der Datei an, die zum Erstellen des Bildes verwendet wurde. |
ImageContext
Bildkontext- bzw. funktionsspezifische Parameter
Felder | |
---|---|
language_hints[] |
Liste der Sprachen, die für TEXT_DETECTION verwendet werden sollen Ein leerer Wert liefert in den meisten Fällen die besten Ergebnisse, weil dadurch die automatische Spracherkennung aktiviert wird. Bei Sprachen, die auf dem lateinischen Alphabet basieren, ist die Einstellung |
text_detection_params |
Parameter für die Text- und Dokumenttexterkennung. |
InputConfig
Der gewünschte Eingabeort und die Metadaten.
Felder | |
---|---|
content |
Dateiinhalt, dargestellt als ein Bytestream. Hinweis: Wie bei allen Derzeit funktioniert dieses Feld nur für BatchAnnotateFiles-Anfragen. |
mime_type |
Der Typ der Datei. Im Moment werden nur „application/pdf“, „image/tiff“ und „image/gif“ unterstützt. Platzhalter werden nicht unterstützt. |
NormalizedVertex
Ein Scheitelpunkt repräsentiert einen 2D-Punkt im Bild. HINWEIS: Die normalisierten Eckpunktkoordinaten sind relativ zum Originalbild und reichen von 0 bis 1.
Felder | |
---|---|
x |
X-Koordinate |
y |
Y-Koordinate |
Seite
Mit OCR erkannte Seite
Felder | |
---|---|
property |
Weitere auf der Seite erkannte Informationen |
width |
Seitenbreite. Bei PDF-Dateien handelt es sich um Punkte. Bei Bildern (einschließlich TIFFs) ist die Einheit Pixel. |
height |
Seitenhöhe. Bei PDF-Dateien handelt es sich um Punkte. Bei Bildern (einschließlich TIFFs) ist die Einheit Pixel. |
blocks[] |
Liste von Textblöcken, Bildern usw. auf dieser Seite |
confidence |
Die Konfidenz der OCR-Ergebnisse auf der Seite. Bereich [0, 1]. |
Absatz
Strukturelle Texteinheit, die mehrere Wörter in einer bestimmten Reihenfolge darstellt
Felder | |
---|---|
property |
Zusätzliche für den Absatz erkannte Informationen |
bounding_box |
Der Begrenzungsrahmen für den Absatz. Die Eckpunkte werden in der Reihenfolge von oben links, rechts oben, rechts unten und unten links angeordnet. Wenn eine Drehung des Begrenzungsrahmens erkannt wird, wird die Drehung als „um die obere linke Ecke“ dargestellt, gemäß der Definition des Lesens des Texts in „natürlicher“ Ausrichtung. Beispiel: * Wenn der Text horizontal ist, kann dies so aussehen: 0----1 | | 3----2 * Wenn er um 180 Grad um die obere linke Ecke gedreht wird, wird daraus 2----3 | | 1----0 und die Eckpunktreihenfolge ist weiterhin (0, 1, 2, 3). |
words[] |
Liste aller Wörter in diesem Absatz |
confidence |
Die Konfidenz der OCR-Ergebnisse für den Absatz. Bereich [0, 1]. |
Attribut
Eine Property
besteht aus einem vom Nutzer bereitgestellten Name-Wert-Paar.
Felder | |
---|---|
name |
Name der Eigenschaft |
value |
Wert der Eigenschaft |
uint64_value |
Wert von numerischen Eigenschaften |
Symbole
Eine einzelne Symboldarstellung
Felder | |
---|---|
property |
Zusätzliche für das Symbol erkannte Informationen |
bounding_box |
Der Begrenzungsrahmen für das Symbol. Die Eckpunkte werden in der Reihenfolge von oben links, rechts oben, rechts unten und unten links angeordnet. Wenn eine Drehung des Begrenzungsrahmens erkannt wird, wird die Drehung als „um die obere linke Ecke“ dargestellt, gemäß der Definition des Lesens des Texts in „natürlicher“ Ausrichtung. Beispiel: * Wenn der Text horizontal ist, kann dies so aussehen: 0----1 | | 3----2 * Wenn er um 180 Grad um die obere linke Ecke gedreht wird, wird daraus 2----3 | | 1----0 und die Eckpunktreihenfolge ist weiterhin (0, 1, 2, 3). |
text |
Die tatsächliche UTF-8-Darstellung des Symbols |
confidence |
Die Konfidenz der OCR-Ergebnisse für das Symbol. Bereich [0, 1]. |
TextAnnotation
TextAnnotation
enthält eine strukturierte Darstellung von mit OCR extrahiertem Text. Die Hierarchie einer mit OCR extrahierten Textstruktur sieht folgendermaßen aus:
TextAnnotation
-> Seite -> Block -> Absatz -> Wort -> Symbol
TextAnnotation.TextProperty
.
Felder | |
---|---|
pages[] |
Liste der durch OCR erkannten Seiten |
text |
Auf den Seiten erkannter UTF-8-Text |
DetectedBreak
Erkannter Anfang oder erkanntes Ende einer Strukturkomponente
Felder | |
---|---|
type |
Erkannte Art der Unterbrechung |
is_prefix |
Wahr, wenn die Unterbrechung vor dem Element steht |
BreakType
Aufzählung zur Angabe der Art der erkannten Unterbrechung. Neue Zeile, Leerzeichen usw.
Enums | |
---|---|
UNKNOWN |
Unbekannte Art von Unterbrechungslabel |
SPACE |
Normales Leerzeichen |
SURE_SPACE |
Sichere Lücke (sehr breit) |
EOL_SURE_SPACE |
Zeilenumbruch |
HYPHEN |
Bindestrich am Ende der Zeile, der im Text nicht vorhanden ist; tritt nicht gleichzeitig mit SPACE , LEADER_SPACE oder LINE_BREAK auf. |
LINE_BREAK |
Zeilenumbruch, der einen Absatz beendet |
DetectedLanguage
Erkannte Sprache für eine Strukturkomponente
Felder | |
---|---|
language_code |
Der BCP-47-Sprachcode, z. B. "en-US" oder "sr-Latn" Weitere Informationen finden Sie unter https://www.unicode.org/reports/tr35/#Unicode_locale_identifier. |
confidence |
Die Konfidenz der erkannten Sprache. Bereich [0, 1]. |
TextProperty
Zusätzliche Informationen, die bei der Strukturkomponente erkannt wurden
Felder | |
---|---|
detected_languages[] |
Eine Liste der erkannten Sprachen zusammen mit der Konfidenz |
detected_break |
Erkannter Anfang oder erkanntes Ende eines Textsegments |
TextDetectionParams
Parameter für Texterkennungen. Wird verwendet, um die Funktionen TEXT_DETECTION und DOCUMENT_TEXT_DETECTION zu steuern.
Felder | |
---|---|
enable_text_detection_confidence_score |
Standardmäßig enthält die Cloud Vision API nur den Konfidenzwert für das Ergebnis von DOCUMENT_TEXT_DETECTION. Setzen Sie das Flag auf „true“, um auch den Konfidenzwert für TEXT_DETECTION einzubeziehen. |
advanced_ocr_options[] |
Eine Liste mit erweiterten OCR-Optionen zum Optimieren des OCR-Verhaltens. |
Vertex
Ein Scheitelpunkt repräsentiert einen 2D-Punkt im Bild. HINWEIS: Die Scheitelpunktkoordinaten haben den gleichen Maßstab wie das Originalbild.
Felder | |
---|---|
x |
X-Koordinate |
y |
Y-Koordinate |
Microsoft Word
Darstellung eines Worts
Felder | |
---|---|
property |
Zusätzliche für das Wort erkannte Informationen |
bounding_box |
Der Begrenzungsrahmen für das Wort. Die Eckpunkte werden in der Reihenfolge von oben links, rechts oben, rechts unten und unten links angeordnet. Wenn eine Drehung des Begrenzungsrahmens erkannt wird, wird die Drehung als „um die obere linke Ecke“ dargestellt, gemäß der Definition des Lesens des Texts in „natürlicher“ Ausrichtung. Beispiel: * Wenn der Text horizontal ist, kann dies so aussehen: 0----1 | | 3----2 * Wenn er um 180 Grad um die obere linke Ecke gedreht wird, wird daraus 2----3 | | 1----0 und die Eckpunktreihenfolge ist weiterhin (0, 1, 2, 3). |
symbols[] |
Liste der Symbole im Wort. Die Reihenfolge der Symbole folgt der natürlichen Lesereihenfolge. |
confidence |
Die Konfidenz der OCR-Ergebnisse für das Wort. Bereich [0, 1]. |