Liste der Features

Mit der Vision API können Sie derzeit die folgenden Features verwenden:

Alle Featuretypen
Texterkennung	Es wird die optische Zeichenerkennung (Optical Character Recognition, OCR) für ein Bild ausgeführt: Texterkennung und ‑konvertierung in maschinencodierten Text. Erkennt und extrahiert UTF-8-Text in einem Bild. Bilder: Optimiert für kleine Textbereiche in einem größeren Bild. Antwort: Es werden eine Liste der als Text identifizierten Wörter, die zugehörigen Begrenzungsrahmen und `textAnnotations` sowie die strukturelle Hierarchie für den von OCR erkannten Text (`fullTextAnnotation`) zurückgegeben. Hierarchie der extrahierten Textstruktur: TextAnnotation -> Seite -> Block -> Absatz -> Wort -> Symbol. Jede Strukturkomponente ab Seite kann außerdem eigene Attribute wie erkannte Sprachen, Zeilenumbrüche usw. haben. Unterstützte Sprachen: Funktioniert mit derzeit unterstützten, zugeordneten und experimentellen Sprachen. Enum-Wert des Features: `TEXT_DETECTION`.
Erkennung von Dokumenttext (hoher Textanteil/Handschrift)	Es wird die optische Zeichenerkennung (OCR) für eine Datei (PDF-/TIFF-Format) oder ein Bild mit viel Text durchgeführt: Erkennung des Textes und Konvertierung in maschinencodierten Text. Dateien: Optimiert für Dokumentdateien (PDF/TIFF). Bilder: Optimiert für *dicht beschriebene* Textbereiche in einem Bild (Bilder von Dokumenten) und Bilder, die Handschrift enthalten. Antwort: Es wird die strukturelle Hierarchie für den per OCR erkannten Text zurückgegeben (`fullTextAnnotation`). Hierarchie der extrahierten Textstruktur: TextAnnotation -> Seite -> Block -> Absatz -> Wort -> Symbol. Jede Strukturkomponente ab Seite kann außerdem eigene Attribute wie erkannte Sprachen, Zeilenumbrüche usw. haben. Unterstützte Sprachen: Funktioniert mit derzeit unterstützten, zugeordneten und experimentellen Sprachen. Enum-Wert des Features: `DOCUMENT_TEXT_DETECTION`. Hat Vorrang, wenn `DOCUMENT_TEXT_DETECTION` und `TEXT_DETECTION` angefordert werden. Wenn Sie Text in gescannten Dokumenten erkennen, versuchen Sie es mit Document AI für die optische Zeichenerkennung, strukturiertes Parsen von Formularen und die Entitätsextraktion. Mit der Document AI Toolbox können Sie Ausgaben aus dem Document AI-Format in das Cloud Vision-Format konvertieren.
Erkennung von Sehenswürdigkeiten¹	Es wird der Name der Sehenswürdigkeit, ein Konfidenzwert sowie ein Begrenzungsrahmen in dem Bild mit der Sehenswürdigkeit zurückgegeben. Es werden Koordinaten für die erkannte Entität angegeben.
Logoerkennung²	Es wird eine Textbeschreibung der identifizierten Entität, ein Konfidenzwert und ein Begrenzungspolygon für das Logo in der Datei zurückgegeben.
Labelerkennung³	Es werden allgemeine Labels für ein Bild bereitgestellt. Für jedes Label wird eine Textbeschreibung, ein Konfidenzwert und eine Aktualitätsbewertung zurückgegeben.
Bildattribute⁴	Es werden die dominanten Farben in einem Bild zurückgegeben. Jede Farbe wird im RGBA-Farbraum dargestellt, hat einen Konfidenzwert und es wird dafür der Anteil der Pixel angezeigt, die die Farbe belegt [0, 1].
Objektlokalisierung⁵	Es werden allgemeine Label- und Begrenzungsrahmen-Annotationen für mehrere Objekte bereitgestellt, die in einem einzelnen Bild erkannt wurden. Für jedes erkannte Objekt werden die folgenden Elemente zurückgegeben: eine Textbeschreibung, ein Konfidenzwert und normalisierte Eckpunkte [0,1] für das Begrenzungspolygon um das Objekt. Sie benötigen eine benutzerdefinierte Objekterkennung? Mit der AutoML Vision-Objekterkennung können Sie für Ihren speziellen Anwendungsfall zur Bildobjekterkennung ein benutzerdefiniertes Modell für maschinelles Lernen erstellen.
Erkennung von Zuschneidehinweisen⁶	Es wird für jede Anforderung ein Begrenzungspolygon für das zugeschnittene Bild, ein Konfidenzwert und ein Wichtigkeitsbruch für den jeweiligen auffälligen Bereich in Bezug auf das Originalbild bereitgestellt. Sie können bis zu 16 Bildverhältniswerte (Breite:Höhe) für ein einzelnes Bild angeben.
Webentitäten und ‑seiten⁷	Es wird eine Reihe ähnlicher Webinhalte für ein Bild bereitgestellt. Es werden die folgenden Informationen zurückgegeben: Webentitäten: Abgeleitete Entitäten (Labels/Beschreibungen) aus ähnlichen Bildern im Web. Bilder mit vollständiger Übereinstimmung: Eine Liste von URLs für Internetbilder beliebiger Größe mit vollständiger Übereinstimmung. Teilweise übereinstimmende Bilder: Eine Liste von URLs für Bilder, die identische Hauptmerkmale haben, zum Beispiel dass es sich um eine zugeschnittene Version des Originalbildes handelt. Seiten mit übereinstimmenden Bildern: Eine Liste von Webseiten (durch Seiten-URL, Seitentitel und URL des übereinstimmenden Bildes identifiziert) mit einem Bild, das die oben beschriebenen Bedingungen erfüllt. Optisch ähnliche Bilder: Eine Liste von URLs für Bilder, die einige Merkmale des Originalbildes haben. Wahrscheinlichstes Label: Eine Schätzung des wahrscheinlichsten Themas des angeforderten Bildes, die aus ähnlichen Bildern im Internet abgeleitet wurde.
Erkennung anstößiger Inhalte (SafeSearch)	Es werden Wahrscheinlichkeitsbewertungen für die folgenden Kategorien anstößiger Inhalte bereitgestellt: `adult`, `spoof`, `medical`, `violence` und `racy`. Die Wahrscheinlichkeitsbewertungen werden mit sechs verschiedenen Werten angegeben: `UNKNOWN`, `VERY_UNLIKELY`, `UNLIKELY`, `POSSIBLE`, `LIKELY` und `VERY_LIKELY`.
Gesichtserkennung	Gesichter werden mit Begrenzungspolygonen gekennzeichnet und es werden bestimmte Gesichtsmerkmale wie Augen, Ohren, Nase, Mund usw. zusammen mit den zugehörigen Konfidenzwerten erkannt. Es werden Wahrscheinlichkeitsbewertungen für Gefühle (Freude, Trauer, Wut, Überraschung) und allgemeine Bildattribute (unterbelichtet, verschwommen, Kopfbedeckung vorhanden) zurückgegeben. Die Wahrscheinlichkeitsbewertungen werden mit sechs verschiedenen Werten angegeben: `UNKNOWN`, `VERY_UNLIKELY`, `UNLIKELY`, `POSSIBLE`, `LIKELY` und `VERY_LIKELY`. Die Gesichtserkennung zur Identifizierung von Personen wird nicht unterstützt.

^{1.
Bildnachweis: Nikolai Vorobyev auf Unsplash (Anmerkungen hinzugefügt)
↩}

^{2.
Bildnachweis: Robert Scoble (CC BY 2.0, Anmerkung hinzugefügt)
↩}

^{3.
Bildnachweis: Alex Knight auf Unsplash
↩}

^{4.
Bildnachweis: Jeremy Bishop auf Unsplash
↩}

^{5.
Bildnachweis: Bogdan Dada auf Unsplash (Anmerkungen hinzugefügt)
↩}

^{6.
Bildnachweis: Yasmin Dangor auf Unsplash (Originalbild und zugeschnittenes Bild)
↩}

^{7.
Bildnachweis: Quinten de Graaf auf Unsplash
↩}