Method: images.annotate

Führen Sie Bilderkennung und -anmerkung für einen Satz von Bildern aus.

HTTP-Anfrage

POST https://vision.googleapis.com/v1p3beta1/images:annotate

Die URL verwendet die Syntax der gRPC-Transcodierung.

Anfragetext

Der Anfragetext enthält Daten mit folgender Struktur:

JSON-Darstellung
{
  "requests": [
    {
      object(AnnotateImageRequest)
    }
  ]
}
Felder
requests[]

object(AnnotateImageRequest)

Individuelle Bildanmerkungsanfragen für diesen Satz

Antworttext

Bei Erfolg enthält der Antworttext Daten mit der folgenden Struktur:

Antwort auf eine Anmerkungsanfrage für Sätze von Bildern

JSON-Darstellung
{
  "responses": [
    {
      object(AnnotateImageResponse)
    }
  ]
}
Felder
responses[]

object(AnnotateImageResponse)

Individuelle Antworten auf Bildanmerkungsanfragen innerhalb des Satzes

Autorisierungsbereiche

Erfordert einen der folgenden OAuth-Bereiche:

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/cloud-vision

Weitere Informationen finden Sie in der Authentifizierungsübersicht.

AnnotateImageRequest

Anfrage zum Ausführen von Google Cloud Vision API-Aufgaben für ein vom Nutzer bereitgestelltes Bild mit vom Nutzer angeforderten Funktionen.

JSON-Darstellung
{
  "image": {
    object(Image)
  },
  "features": [
    {
      object(Feature)
    }
  ],
  "imageContext": {
    object(ImageContext)
  }
}
Felder
image

object(Image)

Das zu verarbeitende Bild

features[]

object(Feature)

Die angeforderten Funktionen

imageContext

object(ImageContext)

Zusätzlicher Kontext, den das Bild umfassen kann

Bild

Kundenbild, für das Google Cloud Vision API-Aufgaben ausgeführt werden sollen

JSON-Darstellung
{
  "content": string,
  "source": {
    object(ImageSource)
  }
}
Felder
content

string (bytes format)

Bildinhalt, dargestellt als ein Stream von Byte. Hinweis: Wie bei allen bytes-Feldern verwenden auch Protokollpuffer eine reine Binärdarstellung, während JSON-Darstellungen Base64 verwenden.

Ein base64-codierter String.

source

object(ImageSource)

Google Cloud Storage-Bildspeicherort oder öffentlich zugängliche Bild-URL Wenn sowohl ein content als auch source für ein Bild angegeben sind, hat content Vorrang und wird zur Anfrage der Bildanmerkung verwendet.

ImageSource

Externe Bildquelle (Google Cloud Storage- oder Web-URL-Bildspeicherort)

JSON-Darstellung
{
  "gcsImageUri": string,
  "imageUri": string
}
Felder
gcsImageUri

string

Verwenden Sie stattdessen imageUri.

Der Google Cloud Storage-URI der Form gs://bucket_name/object_name. Objektversionsverwaltung wird nicht unterstützt. Weitere Informationen finden Sie unter Google Cloud Storage-Anfrage-URIs.

imageUri

string

Der URI des Quell-Images. Es gibt folgende Möglichkeiten:

  1. Der Google Cloud Storage-URI der Form gs://bucket_name/object_name. Objektversionsverwaltung wird nicht unterstützt. Weitere Informationen finden Sie unter Google Cloud Storage-Anfrage-URIs.

  2. Eine öffentlich zugängliche HTTP-/HTTPS-Bild-URL. Beim Abrufen von Bildern von HTTP- oder HTTPS-URLs kann Google nicht garantieren, dass die Anfrage abgeschlossen wird. Ihre Anfrage kann fehlschlagen, wenn der angegebene Host die Anfrage ablehnt (z. B. aufgrund von Anfragendrosselung oder zur DoS-Prävention) oder wenn Google Anfragen an die Website drosselt, um Missbrauch vorzubeugen. Sie sollten sich bei Produktionsanwendungen nicht auf extern gehostete Bilder verlassen.

Wenn sowohl gcsImageUri als auch imageUri angegeben sind, hat imageUri Vorrang.

AnnotateImageResponse

Antworten auf eine Bildanmerkungsanfrage

JSON-Darstellung
{
  "faceAnnotations": [
    {
      object(FaceAnnotation)
    }
  ],
  "landmarkAnnotations": [
    {
      object(EntityAnnotation)
    }
  ],
  "logoAnnotations": [
    {
      object(EntityAnnotation)
    }
  ],
  "labelAnnotations": [
    {
      object(EntityAnnotation)
    }
  ],
  "localizedObjectAnnotations": [
    {
      object(LocalizedObjectAnnotation)
    }
  ],
  "textAnnotations": [
    {
      object(EntityAnnotation)
    }
  ],
  "fullTextAnnotation": {
    object(TextAnnotation)
  },
  "safeSearchAnnotation": {
    object(SafeSearchAnnotation)
  },
  "imagePropertiesAnnotation": {
    object(ImageProperties)
  },
  "cropHintsAnnotation": {
    object(CropHintsAnnotation)
  },
  "webDetection": {
    object(WebDetection)
  },
  "productSearchResults": {
    object(ProductSearchResults)
  },
  "error": {
    object(Status)
  },
  "context": {
    object(ImageAnnotationContext)
  }
}
Felder
faceAnnotations[]

object(FaceAnnotation)

Falls vorhanden, wurde die Gesichtserkennung erfolgreich abgeschlossen.

landmarkAnnotations[]

object(EntityAnnotation)

Falls vorhanden, wurde die Landmark-Erkennung erfolgreich abgeschlossen.

logoAnnotations[]

object(EntityAnnotation)

Falls vorhanden, wurde die Logoerkennung erfolgreich abgeschlossen.

labelAnnotations[]

object(EntityAnnotation)

Falls vorhanden, wurde die Labelerkennung erfolgreich abgeschlossen.

localizedObjectAnnotations[]

object(LocalizedObjectAnnotation)

Falls vorhanden, wurde die Objekterkennung erfolgreich abgeschlossen. Diese Sortierung wird absteigend nach Konfidenzwert sortiert.

textAnnotations[]

object(EntityAnnotation)

Falls vorhanden, wurde die Texterkennung (OCR) erfolgreich abgeschlossen.

fullTextAnnotation

object(TextAnnotation)

Falls vorhanden, wurde die Erkennung von Text (OCR) oder Dokumenttext (OCR) erfolgreich abgeschlossen. Diese Anmerkung stellt die strukturelle Hierarchie für den OCR-Erkennungstext bereit.

safeSearchAnnotation

object(SafeSearchAnnotation)

Falls vorhanden, wurde die SafeSearch-Anmerkung erfolgreich abgeschlossen.

imagePropertiesAnnotation

object(ImageProperties)

Falls vorhanden, wurden Bildeigenschaften erfolgreich extrahiert.

cropHintsAnnotation

object(CropHintsAnnotation)

Falls vorhanden, wurden Zuschneidehinweise erfolgreich abgeschlossen.

webDetection

object(WebDetection)

Falls vorhanden, wurde die Weberkennung erfolgreich abgeschlossen.

productSearchResults

object(ProductSearchResults)

Falls vorhanden, wurde die Produktsuche erfolgreich abgeschlossen.

error

object(Status)

Die Fehlermeldung für den Vorgang, falls diese festgelegt ist. Beachten Sie, dass die eingetragenen Bildanmerkungen garantiert korrekt sind, auch wenn ein error angezeigt wird.

context

object(ImageAnnotationContext)

Falls vorhanden, sind Kontextinformationen erforderlich, um zu verstehen, woher dieses Bild stammt.

FaceAnnotation

Ein Gesichtsanmerkungsobjekt enthält die Ergebnisse der Gesichtserkennung.

JSON-Darstellung
{
  "boundingPoly": {
    object(BoundingPoly)
  },
  "fdBoundingPoly": {
    object(BoundingPoly)
  },
  "landmarks": [
    {
      object(Landmark)
    }
  ],
  "rollAngle": number,
  "panAngle": number,
  "tiltAngle": number,
  "detectionConfidence": number,
  "landmarkingConfidence": number,
  "joyLikelihood": enum(Likelihood),
  "sorrowLikelihood": enum(Likelihood),
  "angerLikelihood": enum(Likelihood),
  "surpriseLikelihood": enum(Likelihood),
  "underExposedLikelihood": enum(Likelihood),
  "blurredLikelihood": enum(Likelihood),
  "headwearLikelihood": enum(Likelihood)
}
Felder
boundingPoly

object(BoundingPoly)

Das Begrenzungspolygon um das Gesicht. Die Koordinaten des Begrenzungsrahmens haben den Maßstab des Originalbilds, wie in ImageParams zurückgegeben. Der Begrenzungsrahmen wird so berechnet, dass er das Gesicht entsprechend den menschlichen Erwartungen "einrahmt". Es basiert auf den Landmark-Ergebnissen. Es kann vorkommen, dass eine oder mehrere x- und/oder y-Koordinaten im BoundingPoly nicht generiert werden (das Polygon ist unbegrenzt), wenn nur ein teilweises Gesicht im Bild annotiert wird.

fdBoundingPoly

object(BoundingPoly)

Das fdBoundingPoly-Begrenzungsrahmen ist enger als der boundingPoly und umschließt nur den Hautteil des Gesichts. In der Regel wird es verwendet, um das Gesicht von einer Bildanalyse zu eliminieren, die die „Menge an Haut“ erkennt, die in einem Bild sichtbar ist. Es basiert nicht auf den Landmark-Ergebnissen, sondern nur auf der anfänglichen Gesichtserkennung; deshalb das Präfix

fd

(face detection, Gesichtserkennung).

landmarks[]

object(Landmark)

Erkannte markante Stellen im Gesicht (Landmarks).

rollAngle

number

Rollwinkel, der den Betrag der Drehung des Gesichts im Uhrzeigersinn/gegen den Uhrzeigersinn relativ zur senkrechten Achse des Bildes um die Achse senkrecht zum Gesicht angibt. Bereich [-180,180].

panAngle

number

Schiebewinkel, der den nach links/rechts gerichteten Winkel des Gesichts relativ zur vertikalen Ebene senkrecht zum Bild anzeigt. Bereich [-180,180].

tiltAngle

number

Neigungswinkel, der den Aufwärts-/Abwärtswinkel des Gesichts relativ zur horizontalen Ebene des Bildes anzeigt. Bereich [-180,180].

detectionConfidence

number

Erkennungskonfidenz. Bereich [0, 1].

landmarkingConfidence

number

Gesichts-Landmark-Konfidenz. Bereich [0, 1].

joyLikelihood

enum(Likelihood)

Wahrscheinlichkeit für Freude.

sorrowLikelihood

enum(Likelihood)

Wahrscheinlichkeit für Kummer.

angerLikelihood

enum(Likelihood)

Wahrscheinlichkeit für Wut.

surpriseLikelihood

enum(Likelihood)

Wahrscheinlichkeit für Überraschung.

underExposedLikelihood

enum(Likelihood)

Wahrscheinlichkeit für unterbelichtetes Foto.

blurredLikelihood

enum(Likelihood)

Wahrscheinlichkeit für unscharfes Foto.

headwearLikelihood

enum(Likelihood)

Wahrscheinlichkeit für Kopfbedeckung.

Landmark

Eine gesichtsspezifische markante Stelle (z. B. ein Gesichtsmerkmal).

JSON-Darstellung
{
  "type": enum(Type),
  "position": {
    object(Position)
  }
}
Felder
type

enum(Type)

Gesichts-Landmark-Typ

position

object(Position)

Gesichts-Landmark-Position

Typ

Gesichts-Landmark-Typ (Gesichtsmerkmaltyp). Links und rechts werden aus der Sicht des Betrachters des Bildes definiert, ohne Spiegelprojektionen zu berücksichtigen, die für Fotos typisch sind. Deshalb ist LEFT_EYE typischerweise das rechte Auge der Person.

Enums
UNKNOWN_LANDMARK Unbekannte Gesichts-Landmark erkannt. Sollte nicht ausgefüllt sein.
LEFT_EYE Linkes Auge
RIGHT_EYE Rechtes Auge
LEFT_OF_LEFT_EYEBROW Links von der linken Augenbraue
RIGHT_OF_LEFT_EYEBROW Rechte von der linken Augenbraue
LEFT_OF_RIGHT_EYEBROW Linke von der rechten Augenbraue
RIGHT_OF_RIGHT_EYEBROW Rechts von der rechten Augenbraue
MIDPOINT_BETWEEN_EYES Mittelpunkt zwischen den Augen
NOSE_TIP Nasenspitze
UPPER_LIP Oberlippe
LOWER_LIP Unterlippe
MOUTH_LEFT Mund links
MOUTH_RIGHT Mund rechts
MOUTH_CENTER Mundmitte
NOSE_BOTTOM_RIGHT Nase, unten rechts
NOSE_BOTTOM_LEFT Nase, unten links
NOSE_BOTTOM_CENTER Nase, unten Mitte
LEFT_EYE_TOP_BOUNDARY Linkes Auge, obere Begrenzung
LEFT_EYE_RIGHT_CORNER Linkes Auge, rechte Ecke
LEFT_EYE_BOTTOM_BOUNDARY Linkes Auge, untere Begrenzung
LEFT_EYE_LEFT_CORNER Linkes Auge, linke Ecke
RIGHT_EYE_TOP_BOUNDARY Rechtes Auge, obere Begrenzung
RIGHT_EYE_RIGHT_CORNER Rechtes Auge, rechte Ecke
RIGHT_EYE_BOTTOM_BOUNDARY Rechtes Auge, untere Begrenzung
RIGHT_EYE_LEFT_CORNER Rechtes Auge, linke Ecke
LEFT_EYEBROW_UPPER_MIDPOINT Linke Augenbraue, oberer Mittelpunkt
RIGHT_EYEBROW_UPPER_MIDPOINT Rechte Augenbraue, oberer Mittelpunkt
LEFT_EAR_TRAGION Tragion linkes Ohr
RIGHT_EAR_TRAGION Tragion rechtes Ohr
LEFT_EYE_PUPIL Pupille linkes Auge
RIGHT_EYE_PUPIL Pupille rechtes Auge
FOREHEAD_GLABELLA Glabella Stirn
CHIN_GNATHION Gnathion Kinn
CHIN_LEFT_GONION Kinn, linker Gonion
CHIN_RIGHT_GONION Kinn, rechter Gonion

Position

Eine 3D-Position im Bild, die hauptsächlich für Gesichtserkennungs-Landmarks verwendet wird. Eine gültige Position muss sowohl x- als auch y-Koordinaten haben. Die Positionskoordinaten haben den gleichen Maßstab wie das Originalbild.

JSON-Darstellung
{
  "x": number,
  "y": number,
  "z": number
}
Felder
x

number

X-Koordinate

y

number

Y-Koordinate

z

number

Z-Koordinate (oder Tiefe)

Likelihood

Eine "bucketisierte" Darstellung von Wahrscheinlichkeiten, die Kunden höchst stabile Ergebnisse bei Modellaktualisierungen liefern soll.

Enums
UNKNOWN Unbekannte Wahrscheinlichkeit
VERY_UNLIKELY Es ist sehr unwahrscheinlich, dass das Bild zur angegebenen Kategorie gehört.
UNLIKELY Es ist unwahrscheinlich, dass das Bild zur angegebenen Kategorie gehört.
POSSIBLE Es ist möglich, dass das Bild zur angegebenen Kategorie gehört.
LIKELY Es ist wahrscheinlich, dass das Bild zur angegebenen Kategorie gehört.
VERY_LIKELY Es ist sehr wahrscheinlich, dass das Bild zur angegebenen Kategorie gehört.

EntityAnnotation

Satz erkannter Entitätsmerkmale

JSON-Darstellung
{
  "mid": string,
  "locale": string,
  "description": string,
  "score": number,
  "confidence": number,
  "topicality": number,
  "boundingPoly": {
    object(BoundingPoly)
  },
  "locations": [
    {
      object(LocationInfo)
    }
  ],
  "properties": [
    {
      object(Property)
    }
  ]
}
Felder
mid

string

Intransparente Entitäts-ID. Einige IDs sind möglicherweise in Google Knowledge Graph Search API verfügbar.

locale

string

Der Sprachcode für die Sprache, in der die Entität description geschrieben wurde.

description

string

Entitätstextbeschreibungen in ihrer locale-Sprache

score

number

Gesamtwert des Ergebnisses. Bereich [0, 1].

confidence
(deprecated)

number

Eingestellt. Verwenden Sie stattdessen score. Die Genauigkeit der Entitätserkennung in einem Bild. Beispielsweise stellt bei einem Bild, in dem die Entität "Eiffelturm" erkannt wird, dieses Feld die Konfidenz dar, dass sich im Abfragebild ein Turm befindet. Bereich [0, 1].

topicality

number

Die Relevanz des ICA-Labels (Image Content Annotation) für das Bild. Zum Beispiel ist die Relevanz von "Turm" für ein Bild, das den erkannten "Eiffelturm" enthält, wahrscheinlich höher als für ein Bild, das ein erkanntes entferntes, hoch aufragendes Gebäude enthält. Dabei kann die Konfidenz, dass es in jedem Bild einen Turm gibt, gleich sein. Bereich [0, 1].

boundingPoly

object(BoundingPoly)

Bildbereich, zu dem diese Entität gehört. Nicht für LABEL_DETECTION-Funktionen erstellt.

locations[]

object(LocationInfo)

Die Standortinformation für die erkannte Entität. Es können mehrere LocationInfo-Elemente vorhanden sein, da ein Ort den Standort der Szene im Bild angeben kann und ein anderer den Ort, an dem das Bild aufgenommen wurde. Standortinformationen sind normalerweise für Sehenswürdigkeiten vorhanden.

properties[]

object(Property)

Einige Entitäten verfügen möglicherweise über optionale, vom Nutzer angegebene Property-Felder (Name/Wert), z. B. einen Wert oder einen String, der die Entität qualifiziert.

LocationInfo

Erkannte Entitätsstandortinformationen

JSON-Darstellung
{
  "latLng": {
    object(LatLng)
  }
}
Felder
latLng

object(LatLng)

Breiten-/Längengradkoordinaten des Standorts

Attribut

Eine Property besteht aus einem vom Nutzer bereitgestellten Name-Wert-Paar.

JSON-Darstellung
{
  "name": string,
  "value": string,
  "uint64Value": string
}
Felder
name

string

Name der Eigenschaft

value

string

Wert der Eigenschaft

uint64Value

string

Wert von numerischen Eigenschaften

LocalizedObjectAnnotation

Satz erkannter Objekte mit Begrenzungsrahmen.

JSON-Darstellung
{
  "mid": string,
  "languageCode": string,
  "name": string,
  "score": number,
  "boundingPoly": {
    object(BoundingPoly)
  }
}
Felder
mid

string

Objekt-ID, die mit EntityAnnotation Mitte ausgerichtet werden soll.

languageCode

string

Der BCP-47-Sprachcode, z. B. „en-US“ oder „sr-Latn“. Weitere Informationen finden Sie unter http://www.unicode.org/reports/tr35/#Unicode_locale_identifier.

name

string

Objektname, ausgedrückt in der Sprache languageCode.

score

number

Punktzahl des Ergebnisses. Bereich [0, 1].

boundingPoly

object(BoundingPoly)

Bildbereich, zu dem diese Entität gehört. Dies muss ausgefüllt werden.

TextAnnotation

TextAnnotation enthält eine strukturierte Darstellung von mit OCR extrahiertem Text. Die Hierarchie einer mit OCR extrahierten Textstruktur sieht folgendermaßen aus: TextAnnotation -> Seite -> Block -> Absatz -> Wort -> Symbol. Jede Strukturkomponente ab Seite kann außerdem eigene Eigenschaften haben. Eigenschaften beschreiben erkannte Sprachen, Unterbrechungen usw. Weitere Informationen finden Sie in der TextAnnotation.TextProperty-Nachrichtendefinition unten.

JSON-Darstellung
{
  "pages": [
    {
      object(Page)
    }
  ],
  "text": string
}
Felder
pages[]

object(Page)

Liste der durch OCR erkannten Seiten

text

string

Auf den Seiten erkannter UTF-8-Text

Seite

Mit OCR erkannte Seite

JSON-Darstellung
{
  "property": {
    object(TextProperty)
  },
  "width": number,
  "height": number,
  "blocks": [
    {
      object(Block)
    }
  ],
  "confidence": number
}
Felder
property

object(TextProperty)

Weitere auf der Seite erkannte Informationen

width

number

Seitenbreite. Bei PDF-Dateien handelt es sich um Punkte. Bei Bildern (einschließlich TIFFs) ist die Einheit Pixel.

height

number

Seitenhöhe. Bei PDF-Dateien handelt es sich um Punkte. Bei Bildern (einschließlich TIFFs) ist die Einheit Pixel.

blocks[]

object(Block)

Liste von Textblöcken, Bildern usw. auf dieser Seite

confidence

number

Die Konfidenz der OCR-Ergebnisse auf der Seite. Bereich [0, 1].

TextProperty

Zusätzliche Informationen, die bei der Strukturkomponente erkannt wurden

JSON-Darstellung
{
  "detectedLanguages": [
    {
      object(DetectedLanguage)
    }
  ],
  "detectedBreak": {
    object(DetectedBreak)
  }
}
Felder
detectedLanguages[]

object(DetectedLanguage)

Eine Liste der erkannten Sprachen zusammen mit der Konfidenz

detectedBreak

object(DetectedBreak)

Erkannter Anfang oder erkanntes Ende eines Textsegments

DetectedLanguage

Erkannte Sprache für eine Strukturkomponente

JSON-Darstellung
{
  "languageCode": string,
  "confidence": number
}
Felder
languageCode

string

Der BCP-47-Sprachcode, z. B. „en-US“ oder „sr-Latn“. Weitere Informationen finden Sie unter http://www.unicode.org/reports/tr35/#Unicode_locale_identifier.

confidence

number

Die Konfidenz der erkannten Sprache. Bereich [0, 1].

DetectedBreak

Erkannter Anfang oder erkanntes Ende einer Strukturkomponente

JSON-Darstellung
{
  "type": enum(BreakType),
  "isPrefix": boolean
}
Felder
type

enum(BreakType)

Erkannte Art der Unterbrechung

isPrefix

boolean

Wahr, wenn die Unterbrechung vor dem Element steht

BreakType

Aufzählung zur Angabe der Art der erkannten Unterbrechung. Neue Zeile, Leerzeichen usw.

Enums
UNKNOWN Unbekannte Art von Unterbrechungslabel
SPACE Normales Leerzeichen
SURE_SPACE Sichere Lücke (sehr breit)
EOL_SURE_SPACE Zeilenumbruch
HYPHEN Bindestrich am Ende der Zeile, der im Text nicht vorhanden ist; tritt nicht gleichzeitig mit SPACE, LEADER_SPACE oder LINE_BREAK auf.
LINE_BREAK Zeilenumbruch, der einen Absatz beendet

Block

Logisches Element auf der Seite

JSON-Darstellung
{
  "property": {
    object(TextProperty)
  },
  "boundingBox": {
    object(BoundingPoly)
  },
  "paragraphs": [
    {
      object(Paragraph)
    }
  ],
  "blockType": enum(BlockType),
  "confidence": number
}
Felder
property

object(TextProperty)

Zusätzliche für den Block erkannte Informationen

boundingBox

object(BoundingPoly)

Der Begrenzungsrahmen für den Block. Die Eckpunkte werden in der Reihenfolge von oben links, rechts oben, rechts unten und unten links angeordnet. Wenn eine Drehung des Begrenzungsrahmens erkannt wird, wird die Drehung als „um die obere linke Ecke“ dargestellt, gemäß der Definition des Lesens des Texts in „natürlicher“ Ausrichtung. Beispiel:

  • Wenn der Text horizontal ist, könnte er so aussehen:
    0----1
    |    |
    3----2
  • wenn er um 180 Grad um die linke obere Ecke gedreht wird, wird daraus:
    2----3
    |    |
    1----0

und die Eckpunktreihenfolge ist weiterhin (0, 1, 2, 3).

paragraphs[]

object(Paragraph)

Liste der Absätze in diesem Block (wenn der Block den Typ "Text" hat)

blockType

enum(BlockType)

Erkannter Blocktyp (Text, Bild usw.) für diesen Block

confidence

number

Die Konfidenz der OCR-Ergebnisse für den Block. Bereich [0, 1].

Absatz

Strukturelle Texteinheit, die mehrere Wörter in einer bestimmten Reihenfolge darstellt

JSON-Darstellung
{
  "property": {
    object(TextProperty)
  },
  "boundingBox": {
    object(BoundingPoly)
  },
  "words": [
    {
      object(Word)
    }
  ],
  "confidence": number
}
Felder
property

object(TextProperty)

Zusätzliche für den Absatz erkannte Informationen

boundingBox

object(BoundingPoly)

Der Begrenzungsrahmen für den Absatz. Die Eckpunkte werden in der Reihenfolge von oben links, rechts oben, rechts unten und unten links angeordnet. Wenn eine Drehung des Begrenzungsrahmens erkannt wird, wird die Drehung als „um die obere linke Ecke“ dargestellt, gemäß der Definition des Lesens des Texts in „natürlicher“ Ausrichtung. Beispiel: * Wenn der Text horizontal ist, kann dies so aussehen: 0----1 | | 3----2 * Wenn er um 180 Grad um die obere linke Ecke gedreht wird, wird daraus 2----3 | | 1----0 und die Eckpunktreihenfolge ist weiterhin (0, 1, 2, 3).

words[]

object(Word)

Liste der Wörter in diesem Absatz

confidence

number

Die Konfidenz der OCR-Ergebnisse für den Absatz. Bereich [0, 1].

Microsoft Word

Darstellung eines Worts

JSON-Darstellung
{
  "property": {
    object(TextProperty)
  },
  "boundingBox": {
    object(BoundingPoly)
  },
  "symbols": [
    {
      object(Symbol)
    }
  ],
  "confidence": number
}
Felder
property

object(TextProperty)

Zusätzliche für das Wort erkannte Informationen

boundingBox

object(BoundingPoly)

Der Begrenzungsrahmen für das Wort. Die Eckpunkte werden in der Reihenfolge von oben links, rechts oben, rechts unten und unten links angeordnet. Wenn eine Drehung des Begrenzungsrahmens erkannt wird, wird die Drehung als „um die obere linke Ecke“ dargestellt, gemäß der Definition des Lesens des Texts in „natürlicher“ Ausrichtung. Beispiel: * Wenn der Text horizontal ist, kann dies so aussehen: 0----1 | | 3----2 * Wenn er um 180 Grad um die obere linke Ecke gedreht wird, wird daraus 2----3 | | 1----0 und die Eckpunktreihenfolge ist weiterhin (0, 1, 2, 3).

symbols[]

object(Symbol)

Liste der Symbole im Wort. Die Reihenfolge der Symbole folgt der natürlichen Lesereihenfolge.

confidence

number

Die Konfidenz der OCR-Ergebnisse für das Wort. Bereich [0, 1].

Symbole

Eine einzelne Symboldarstellung

JSON-Darstellung
{
  "property": {
    object(TextProperty)
  },
  "boundingBox": {
    object(BoundingPoly)
  },
  "text": string,
  "confidence": number
}
Felder
property

object(TextProperty)

Zusätzliche für das Symbol erkannte Informationen

boundingBox

object(BoundingPoly)

Der Begrenzungsrahmen für das Symbol. Die Eckpunkte werden in der Reihenfolge von oben links, rechts oben, rechts unten und unten links angeordnet. Wenn eine Drehung des Begrenzungsrahmens erkannt wird, wird die Drehung als „um die obere linke Ecke“ dargestellt, gemäß der Definition des Lesens des Texts in „natürlicher“ Ausrichtung. Beispiel: * Wenn der Text horizontal ist, kann dies wie folgt aussehen: 0----1 | | 3----2 * Wenn er um 180 Grad um die obere linke Ecke gedreht wird, wird daraus 2----3 | | 1----0 und die Eckpunktreihenfolge ist weiterhin (0, 1, 2, 3).

text

string

Die tatsächliche UTF-8-Darstellung des Symbols

confidence

number

Die Konfidenz der OCR-Ergebnisse für das Symbol. Bereich [0, 1].

BlockType

Typ eines Blocks (Text, Bild usw.), der durch OCR identifiziert wurde.

Enums
UNKNOWN Unbekannter Blocktyp
TEXT Normaler Textblock
TABLE Tabellenblock
PICTURE Bildblock
RULER Feld mit horizontaler/vertikaler Linie
BARCODE Barcodeblock

SafeSearchAnnotation

Eine Reihe von Merkmalen des Bildes, die durch Methoden für maschinelles Sehen in Bezug auf SafeSearch-Kategorien berechnet wurden (z. B. nicht jugendfreie Inhalte, Spoofing, Medizin, Gewalt).

JSON-Darstellung
{
  "adult": enum(Likelihood),
  "spoof": enum(Likelihood),
  "medical": enum(Likelihood),
  "violence": enum(Likelihood),
  "racy": enum(Likelihood)
}
Felder
adult

enum(Likelihood)

Stellt die Wahrscheinlichkeit für nur für Erwachsene bestimmte Inhalte für das Bild dar. Inhalte nur für Erwachsene können Elemente wie Nacktheit, pornografische Bilder oder Cartoons oder sexuelle Aktivitäten enthalten.

spoof

enum(Likelihood)

Wahrscheinlichkeit für Spoofing. Die Wahrscheinlichkeit, dass eine Änderung an der kanonischen Version des Bildes vorgenommen wurde, um es lustig oder anstößig erscheinen zu lassen.

medical

enum(Likelihood)

Wahrscheinlichkeit, dass dies ein medizinisches Bild ist.

violence

enum(Likelihood)

Wahrscheinlichkeit, dass dieses Bild gewalttätige Inhalte enthält.

racy

enum(Likelihood)

Wahrscheinlichkeit, dass das Anfragebild nicht jugendfreie Inhalte enthält. Nicht jugendfreie Inhalte können unter anderem knappe oder durchsichtige Bekleidung, strategisch verhüllte Nacktheit, anzügliche oder provozierende Posen oder Nahaufnahmen sensibler Körperpartien umfassen.

ImageProperties

Speichert Bildeigenschaften, z. B. dominante Farben

JSON-Darstellung
{
  "dominantColors": {
    object(DominantColorsAnnotation)
  }
}
Felder
dominantColors

object(DominantColorsAnnotation)

Falls vorhanden, wurden dominante Farben erfolgreich abgeschlossen.

DominantColorsAnnotation

Satz dominierender Farben und ihre entsprechenden Werte

JSON-Darstellung
{
  "colors": [
    {
      object(ColorInfo)
    }
  ]
}
Felder
colors[]

object(ColorInfo)

RGB-Farbwerte mit ihren Werten und ihrem Pixelanteil

ColorInfo

Die Farbinformationen umfassen RGB-Kanäle, den Wert sowie den Anteil des Bildes, den die jeweilige Farbe einnimmt.

JSON-Darstellung
{
  "color": {
    object(Color)
  },
  "score": number,
  "pixelFraction": number
}
Felder
color

object(Color)

RGB-Komponenten der Farbe

score

number

Bildspezifischer Wert für diese Farbe. Wert im Bereich [0, 1].

pixelFraction

number

Der Anteil der Pixel, die die jeweilige Farbe im Bild belegt. Wert im Bereich [0, 1].

CropHintsAnnotation

Ein Satz von Zuschneidehinweisen, die zum Generieren neuer Zuschneidevorgänge beim Verarbeiten von Bildern verwendet werden.

JSON-Darstellung
{
  "cropHints": [
    {
      object(CropHint)
    }
  ]
}
Felder
cropHints[]

object(CropHint)

Ergebnisse der Zuschneidehinweise

CropHint

Einzelner Zuschneidehinweis, der zum Generieren eines neuen Zuschneidevorgangs beim Verarbeiten eines Bildes verwendet wird.

JSON-Darstellung
{
  "boundingPoly": {
    object(BoundingPoly)
  },
  "confidence": number,
  "importanceFraction": number
}
Felder
boundingPoly

object(BoundingPoly)

Das Begrenzungspolygon für den Zuschnittsbereich. Die Koordinaten des Begrenzungsrahmens haben den Maßstab des Originalbilds, wie in ImageParams zurückgegeben.

confidence

number

Die Konfidenz, dass dies ein auffälliger Bereich ist. Bereich [0, 1].

importanceFraction

number

Anteil der Bedeutung dieses auffälligen Bereichs in Bezug auf das Originalbild.

WebDetection

Relevante Informationen für das Bild aus dem Internet

JSON-Darstellung
{
  "webEntities": [
    {
      object(WebEntity)
    }
  ],
  "fullMatchingImages": [
    {
      object(WebImage)
    }
  ],
  "partialMatchingImages": [
    {
      object(WebImage)
    }
  ],
  "pagesWithMatchingImages": [
    {
      object(WebPage)
    }
  ],
  "visuallySimilarImages": [
    {
      object(WebImage)
    }
  ],
  "bestGuessLabels": [
    {
      object(WebLabel)
    }
  ]
}
Felder
webEntities[]

object(WebEntity)

Abgeleitete Entitäten aus ähnlichen Bildern im Internet

fullMatchingImages[]

object(WebImage)

Komplett übereinstimmende Bilder aus dem Internet. Können skalierte Kopien des Abfragebildes beinhalten.

partialMatchingImages[]

object(WebImage)

Teilweise übereinstimmende Bilder aus dem Internet. Die Bilder sind so ähnlich, dass sie einige Hauptmerkmale teilen. Zum Beispiel wird ein Originalbild wahrscheinlich eine partielle Übereinstimmung mit seinen Zuschnitten haben.

pagesWithMatchingImages[]

object(WebPage)

Webseiten, die die den übereinstimmenden Bilder aus dem Internet enthalten

visuallySimilarImages[]

object(WebImage)

Die visuell ähnlichen Bildergebnisse

bestGuessLabels[]

object(WebLabel)

Die Vermutung, dass der Dienst das Thema des Anfragebilds schätzt. Abgeleitet aus ähnlichen Bildern im offenen Web

WebEntity

Aus ähnlichen Bildern im Internet abgeleitete Entität

JSON-Darstellung
{
  "entityId": string,
  "score": number,
  "description": string
}
Felder
entityId

string

Intransparente Entitäts-ID

score

number

Gesamtrelevanzbewertung für die Entität. Nicht normalisiert und nicht für verschiedene Bildabfragen vergleichbar.

description

string

Kanonische Beschreibung der Entität auf Englisch

WebImage

Metadaten für Onlinebilder

JSON-Darstellung
{
  "url": string,
  "score": number
}
Felder
url

string

Die Ergebnisbild-URL

score

number

(Verworfen) Gesamtrelevanzbewertung für das Bild

WebPage

Metadaten für Webseiten

JSON-Darstellung
{
  "url": string,
  "score": number,
  "pageTitle": string,
  "fullMatchingImages": [
    {
      object(WebImage)
    }
  ],
  "partialMatchingImages": [
    {
      object(WebImage)
    }
  ]
}
Felder
url

string

Die URL der Ergebniswebseite

score

number

(Verworfen) Gesamtrelevanzbewertung für die Webseite

pageTitle

string

Titel der Webseite, kann HTML-Markups enthalten

fullMatchingImages[]

object(WebImage)

Komplett übereinstimmende Bilder auf der Seite. Können skalierte Kopien des Abfragebildes beinhalten.

partialMatchingImages[]

object(WebImage)

Teilweise übereinstimmende Bilder auf der Seite. Die Bilder sind so ähnlich, dass sie einige Hauptmerkmale teilen. Zum Beispiel wird ein Originalbild wahrscheinlich eine partielle Übereinstimmung mit seinen Zuschnitten haben.

WebLabel

Label, um zusätzliche Metadaten für die Weberkennung bereitzustellen

JSON-Darstellung
{
  "label": string,
  "languageCode": string
}
Felder
label

string

Label für zusätzliche Metadaten

languageCode

string

Der BCP-47-Sprachcode für label, beispielsweise „en-US“ oder „sr-Latn“. Weitere Informationen finden Sie unter http://www.unicode.org/reports/tr35/#Unicode_locale_identifier.

ProductSearchResults

Ergebnisse für eine Produktsuche

JSON-Darstellung
{
  "indexTime": string,
  "results": [
    {
      object(Result)
    }
  ],
  "productGroupedResults": [
    {
      object(GroupedResult)
    }
  ]
}
Felder
indexTime

string (Timestamp format)

Zeitstempel des Index, der diese Ergebnisse bereitgestellt hat. Änderungen nach diesem Zeitpunkt werden in den aktuellen Ergebnissen nicht angezeigt.

Zeitstempel im Format RFC3339 UTC "Zulu" in Nanosekunden. Beispiel: "2014-10-02T15:01:23.045123456Z".

results[]

object(Result)

Ergebnisliste, eine für jede Produktübereinstimmung.

productGroupedResults[]

object(GroupedResult)

Liste der Ergebnisse, die nach im Abfragebild erkannten Produkten gruppiert sind. Jeder Eintrag entspricht einem Begrenzungspolygon im Abfragebild und enthält die passenden Produkte für diese Region. Es kann zu Übereinstimmungen bei den Produkten kommen, die alle Produktergebnisse enthalten.

Folge

Informationen zu einem Produkt.

JSON-Darstellung
{
  "product": {
    object(Product)
  },
  "score": number,
  "image": string
}
Felder
product

object(Product)

Das Produkt

score

number

Eine Konfidenzstufe der Übereinstimmung, zwischen 0 (keine Konfidenz) und 1 (hohe Konfidenz).

image

string

Der Ressourcenname des Bildes des Produkts, das der Abfrage am nächsten kommt.

Gruppiertes Ergebnis

Informationen zu Produkten, die einem einzelnen Produkt in einem Abfragebild ähneln.

JSON-Darstellung
{
  "boundingPoly": {
    object(BoundingPoly)
  },
  "results": [
    {
      object(Result)
    }
  ]
}
Felder
boundingPoly

object(BoundingPoly)

Das Begrenzungspolygon um das im Abfragebild erkannte Produkt.

results[]

object(Result)

Ergebnisliste, eine für jede Produktübereinstimmung.

ImageAnnotationContext

Wenn ein Bild aus einer Datei (z. B. einer PDF-Datei) erstellt wurde, enthält diese Nachricht Informationen zur Quelle des Bildes.

JSON-Darstellung
{
  "uri": string,
  "pageNumber": number
}
Felder
uri

string

Der URI der Datei, die zur Erstellung des Bildes verwendet wurde.

pageNumber

number

Falls es sich um eine PDF- oder TIFF-Datei handelt, gibt dieses Feld die Seitenzahl in der Datei an, die zum Erstellen des Bildes verwendet wurde.