Liste der Features

Mit der Vision API können Sie derzeit die folgenden Features verwenden:

Alle Featuretypen

Texterkennung

Bild eines Verkehrsschilds
  • Es wird die optische Zeichenerkennung (Optical character recognition, OCR) für ein Bild ausgeführt: Texterkennung und -konvertierung in maschinencodierten Text. Erkennt und extrahiert UTF-8-Text in einem Bild.
  • Bilder: Optimiert für kleine Textbereiche in einem größeren Bild.
  • Antwort: Es werden eine Liste der als Text identifizierten Wörter, die zugehörigen Begrenzungsrahmen und textAnnotations sowie die strukturelle Hierarchie für den OCR-Erkennungstext (fullTextAnnotation) zurückgegeben.
    • Hierarchie der extrahierten Textstruktur:
      • TextAnnotation -> Seite -> Block -> Absatz -> Wort -> Symbol.
      • Jede Strukturkomponente ab Seite kann außerdem eigene Attribute wie erkannte Sprachen, Zeilenumbrüche usw. aufweisen.
  • Unterstützte Sprachen: Funktioniert mit derzeit unterstützten, zugeordneten und experimentellen Sprachen.
  • Enum-Wert des Features: TEXT_DETECTION.

Erkennung von Dokumenttext (hoher Textanteil/Handschrift)

Bild mit Fließtext und Anmerkungen
Bild mit handschriftlichem Text
  • Es wird die optische Zeichenerkennung (Optical character recognition, OCR) für eine Datei (PDF-/TIFF-Format) oder ein Bild mit dicht geschriebenem Text durchgeführt: Erkennung des dicht geschriebenen Textes und Konvertierung in maschinencodierten Text.
  • Dateien: Optimiert für Dokumentdateien (PDF/TIFF).
  • Bilder: Optimiert für dicht beschriebene Textbereiche in einem Bild (Bilder von Dokumenten) und Bilder, die Handschrift enthalten.
  • Antwort: Es wird die strukturelle Hierarchie für den OCR-Erkennungstext zurückgegeben (fullTextAnnotation).
    • Hierarchie der extrahierten Textstruktur:
      • TextAnnotation -> Seite -> Block -> Absatz -> Wort -> Symbol.
      • Jede Strukturkomponente ab Seite kann außerdem eigene Attribute wie erkannte Sprachen, Zeilenumbrüche usw. aufweisen.
  • Unterstützte Sprachen: Funktioniert mit derzeit unterstützten, zugeordneten und experimentellen Sprachen.
  • Enum-Wert des Features: DOCUMENT_TEXT_DETECTION.
    • Hat Vorrang, wenn DOCUMENT_TEXT_DETECTION und TEXT_DETECTION angefordert werden.

Erkennung von Sehenswürdigkeiten 1

Bild der Basilius-Kathedrale
  • Es wird der Name der Sehenswürdigkeit, ein Konfidenzwert sowie ein Begrenzungsrahmen in dem Bild mit der Sehenswürdigkeit zurückgegeben.
  • Es werden Koordinaten für die erkannte Entität angegeben.

Logoerkennung 2

Annotiertes Logo
  • Es wird eine Textbeschreibung der identifizierten Entität, ein Konfidenzwert und ein Begrenzungspolygon für das Logo in der Datei zurückgegeben.

Labelerkennung 3

Bild: Straße in Shanghai
  • Es werden allgemeine Labels für ein Bild bereitgestellt.
  • Für jedes Label wird eine Textbeschreibung, ein Konfidenzwert und eine Aktualitätsbewertung zurückgegeben.

Bildattribute 4

Bild von Bali mit Attributen
  • Es werden die dominanten Farben in einem Bild zurückgegeben.
  • Jede Farbe wird im RGBA-Farbraum dargestellt, hat einen Konfidenzwert und es wird dafür der Anteil der Pixel angezeigt, die die Farbe belegt [0, 1].

Objektlokalisierung 5

Bild mit Begrenzungsrahmen
  • Es werden allgemeine Label- und Begrenzungsrahmen-Annotationen für mehrere Objekte bereitgestellt, die in einem einzelnen Bild erkannt wurden.
  • Für jedes erkannte Objekt werden die folgenden Elemente zurückgegeben: eine Textbeschreibung, ein Konfidenzwert und normalisierte Eckpunkte [0,1] für das Begrenzungspolygon um das Objekt.

Erkennung von Zuschneidehinweisen 6

Bild und zugeschnittene Version des Bildes
  • Es wird für jede Anforderung ein Begrenzungspolygon für das zugeschnittene Bild, ein Konfidenzwert und ein Wichtigkeitsbruch für den jeweiligen auffälligen Bereich in Bezug auf das Originalbild bereitgestellt.
  • Sie können bis zu 16 Bildverhältniswerte (Breite:Höhe) für ein einzelnes Bild angeben.

Webentitäten und -seiten 7

Bild mit Webentitätentabelle
  • Es wird eine Reihe ähnlicher Webinhalte für ein Bild bereitgestellt.
  • Es werden die folgenden Informationen zurückgegeben:
    • Webentitäten: Abgeleitete Entitäten (Labels/Beschreibungen) aus ähnlichen Bildern im Web.
    • Bilder mit vollständiger Übereinstimmung: Eine Liste von URLs für Internetbilder beliebiger Größe mit vollständiger Übereinstimmung.
    • Teilweise übereinstimmende Bilder: Eine Liste von URLs für Bilder, die identische Hauptmerkmale haben, z. B. dass es sich um eine zugeschnittene Version des Originalbildes handelt.
    • Seiten mit übereinstimmenden Bildern: Eine Liste von Webseiten (durch Seiten-URL, Seitentitel und URL des übereinstimmenden Bildes identifiziert) mit einem Bild, das die oben beschriebenen Bedingungen erfüllt.
    • Optisch ähnliche Bilder: Eine Liste von URLs für Bilder, die einige Merkmale des Originalbilds aufweisen.
    • Wahrscheinlichstes Label: Eine Schätzung des wahrscheinlichsten Themas des angeforderten Bildes, die aus ähnlichen Bildern im Internet abgeleitet wurde.

Erkennung anstößiger Inhalte (SafeSearch)

  • Es werden Wahrscheinlichkeitsbewertungen für die folgenden Kategorien anstößiger Inhalte bereitgestellt: adult, spoof, medical, violence und racy.
  • Die Wahrscheinlichkeitsbewertungen werden mit sechs verschiedenen Werten angegegeben: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY und VERY_LIKELY.

Gesichtserkennung

Beispielbild mit Gesichtserkennung
  • Es wird nach Gesichtern mit Begrenzungspolygonen gesucht und es werden bestimmte Gesichtsmerkmale wie Augen, Ohren, Nase, Mund usw. zusammen mit den zugehörigen Konfidenzwerten erkannt.
  • Es werden Wahrscheinlichkeitsbewertungen für Gefühle (Freude, Trauer, Wut, Überraschung) und allgemeine Bildattribute (unterbelichtet, verschwommen, Kopfbedeckung vorhanden) zurückgegeben.
  • Die Wahrscheinlichkeitsbewertungen werden mit sechs verschiedenen Werten angegegeben: UNKNOWN, VERY_UNLIKELY, UNLIKELY, POSSIBLE, LIKELY und VERY_LIKELY.
  • Die Gesichtserkennung zur Identifizierung von Personen wird nicht unterstützt.

1. Bildnachweis: Nikolai Vorobyev auf Unsplash (Anmerkungen hinzugefügt)

2. Bildnachweis: Robert Scoble (CC BY 2.0, Anmerkung hinzugefügt)

3. Bildnachweis: Alex Knight auf Unsplash

4. Bildnachweis: Jeremy Bishop auf Unsplash

5. Bildnachweis: Bogdan Dada auf Unsplash (Anmerkungen hinzugefügt)

6. Bildnachweis: Yasmin Dangor auf Unsplash (Originalbild und zugeschnittenes Bild)

7. Bildnachweis: Quinten de Graaf auf Unsplash