Vision AI

Nutzen Sie Informationen aus Bildern, Dokumenten und Videos.

Über APIs können Sie auf fortschrittliche Vision-Modelle zugreifen, um Visionsaufgaben zu automatisieren, Analysen zu optimieren und umsetzbare Informationen zu gewinnen. Oder entwickeln Sie benutzerdefinierte Anwendungen mit programmierfreiem Modelltraining und geringen Kosten in einer verwalteten Umgebung.

Neukunden erhalten ein Guthaben von bis zu 300 $, um Vertex AI und andere Google Cloud-Produkte auszuprobieren.

Sie können auch versuchen, von Google empfohlene Lösungen für das Zusammenfassen von Dokumenten und die KI-/ML-Bildverarbeitung bereitzustellen.

Überblick

Was ist Computer Vision?

Computer Vision ist ein Bereich der künstlichen Intelligenz (KI), der es Computern und Systemen ermöglicht, visuelle Daten zu interpretieren und zu analysieren und aus digitalen Bildern, Videos und anderen visuellen Elementen aussagekräftige Informationen abzuleiten. Zu den typischen Anwendungen in der Praxis gehören: Objekterkennung, Verarbeitung visueller Inhalte (Bilder, Dokumente, Videos), Verständnis und Analyse, Produktsuche, Bildklassifizierung und -suche sowie Inhaltsmoderation.

Fortschrittliche multimodale generative KI

Vertex AI von Google Cloud bietet Zugriff auf Gemini, ein hochmodernes, multimodales Modell, das praktisch jede Eingabe verstehen, verschiedene Arten von Informationen kombinieren und fast jede Ausgabe generieren kann.

Generative KI mit Fokus auf Vision

Imagen in Vertex AI stellt Anwendungsentwicklern über eine API die hochmodernen Funktionen für generative KI von Google zur Verfügung. Zu den wichtigsten Funktionen gehören die Bildgenerierung mit Text-Prompts, die Bildbearbeitung mit Text-Prompts, das Beschreiben eines Bildes in Text und die Feinabstimmung des Themenmodells.

Einsatzbereite Vision AI

Die Cloud Vision API basiert auf vortrainierten ML-Modellen für Computer Vision von Google und ist eine sofort verfügbare API (REST und RPC), mit der Entwickler gängige Funktionen zur visuellen Erkennung einfach in Anwendungen einbinden können. Dazu gehören: Bildbeschriftung, Erkennung von Gesichtern und Sehenswürdigkeiten, optische Zeichenerkennung (Optical Character Recognition, OCR) und Taggen von anstößigen Inhalten.

Jede Funktion, die Sie auf ein Bild anwenden, ist eine kostenpflichtige Einheit. Mit der Cloud Vision API können Sie jeden Monat 1.000 Funktionen des Features kostenlos nutzen. Beachten Sie die Preisangaben.

Dokumentverständnis – Generative KI

Document AI ist eine Plattform zum Verstehen von Dokumenten, die Computer Vision und andere Technologien wie Natural Language Processing kombiniert, um Text und Daten aus gescannten Dokumenten zu extrahieren und unstrukturierte Daten in strukturierte Informationen und Geschäftseinblicke umzuwandeln. 

Es bietet eine breite Palette vortrainierter Prozessoren, die für verschiedene Arten von Dokumenten optimiert sind. Außerdem lassen sich damit ganz einfach benutzerdefinierte Prozessoren zum Klassifizieren, Aufteilen und Extrahieren strukturierter Daten aus Dokumenten über Document AI Workbench erstellen.

Einsatzbereite Vision AI für Videos

Mit der Technologie für Computer Vision im Kern stellt die Video Intelligence API eine einfache Möglichkeit dar, Videoinhalte zu verarbeiten, zu analysieren und zu verstehen. 

Die vortrainierten ML-Modelle erkennen automatisch eine Vielzahl von Objekten, Orten und Aktionen in gespeicherten und gestreamten Videos in außergewöhnlicher Qualität. Diese Lösung ist äußerst effizient bei häufigen Anwendungsfällen wie Inhaltsmoderation und -empfehlung, Medienarchiven und kontextbezogene Werbung. Sie können auch benutzerdefinierte ML-Modelle mit Vertex AI Vision für Ihre spezifischen Anforderungen trainieren. 

Visual Inspection AI

Visual Inspection AI automatisiert visuelle Inspektionsaufgaben in der Fertigung und in anderen industriellen Umgebungen. Dabei kommen fortschrittliche Techniken für Computer Vision und Deep Learning zum Einsatz, um Bilder und Videos zu analysieren, Anomalien zu identifizieren, Fehler zu erkennen und zu lokalisieren sowie fehlende und defekte Teile in montierten Produkten zu prüfen.

Sie können benutzerdefinierte Modelle ohne technisches Fachwissen und mit minimalen Labels für Bilder trainieren, Inferenzen an Produktionslinien effizient ausführen und Modelle kontinuierlich mit aktuellen Daten aus der Fabrik aktualisieren.

Einheitliche Vision AI-Plattform

Vertex AI Vision ist eine vollständig verwaltete Umgebung für die Anwendungsentwicklung, mit der Entwicklerinnen und Entwickler ganz einfach Anwendungen für Computer Vision erstellen, bereitstellen und verwalten können, um unterschiedliche Datenmodalitäten wie Texte, Bilder, Video- und tabellarische Daten zu verarbeiten. Sie verkürzt die Dauer von Tagen auf Minuten bei einem Zehntel der Kosten der aktuellen Angebote.

Sie können Ihre eigenen benutzerdefinierten Modelle erstellen und bereitstellen sowie mit CI/CD-Pipelines verwalten und skalieren. Sie lässt sich auch in beliebte Open-Source-Tools wie TensorFlow und PyTorch einbinden.

Daten, Datenschutz und Sicherheit

Google Cloud bietet branchenführende Funktionen, die Ihnen – unseren Kunden – die Kontrolle über Ihre Daten geben und Transparenz bieten, wann und wie auf sie zugegriffen wird.

Als Google Cloud-Kunde sind Sie der Inhaber Ihrer Kundendaten. Wir setzen strenge Sicherheitsmaßnahmen ein, um Ihre Kundendaten zu schützen und stellen Ihnen Tools und Funktionen zur Verfügung, mit denen Sie Ihre Kundendaten selbst kontrollieren können. Kundendaten gehören Ihnen und nicht Google. Wir verarbeiten Ihre Daten nur gemäß den mit Ihnen geschlossenen Vereinbarungen.

Weitere Informationen findest du in unserem Datenschutz-Center.

Produkte für maschinelles Sehen vergleichen

AngebotOptimal fürWichtige Features

Schnelle und einfache Einbindung grundlegender Bildverarbeitungsfunktionen

Vordefinierte Funktionen wie Bildbeschriftung, Erkennung von Gesichtern und Sehenswürdigkeiten, OCR, SafeSearch.

Kostengünstig, nutzungsabhängige Abrechnung.

Informationen aus gescannten Dokumenten und Bildern extrahieren, Dokument-Workflows automatisieren

OCR (unterstützt durch generative KI), NLP, ML für das Verstehen von Dokumenten, Textextraktion, Entitätsidentifikation, Dokumentkategorisierung.

Videoinhalte analysieren, Inhalte moderieren und empfehlen, Medienarchive und kontextbezogene Anzeigen

Objekterkennung und -verfolgung, Szenenerkennung, Aktivitätserkennung, Gesichtserkennung und -analyse, Texterkennung.

Aufgaben der visuellen Inspektionen in der Fertigungs- und Industriebranche automatisieren

Anomalien erkennen, Fehler erkennen und lokalisieren und die Montage überprüfen.

Benutzerdefinierte Modelle für spezifische Anforderungen erstellen und bereitstellen

Tools zur Datenvorbereitung, Modelltraining und ‑bereitstellung, vollständige Kontrolle über Ihre Lösung. Erfordert technisches Fachwissen.

Automatische Bildbeschreibungen 

Bildklassifizierung und ‑suche

Inhaltsmoderation und Empfehlungen

Bildgenerierung, Bildbearbeitung, visuelle Untertitel und multimodale Einbettung.

Vollständige Liste der Funktionen und ihrer Markteinführungsphasen ansehen

Diese Produkte sind für verschiedene Zwecke optimiert und bieten Ihnen die Möglichkeit, vortrainierte ML-Modelle zu nutzen und sofort durchzustarten, mit der Möglichkeit einer einfachen Feinabstimmung.

Optimal für

Schnelle und einfache Einbindung grundlegender Bildverarbeitungsfunktionen

Wichtige Features

Vordefinierte Funktionen wie Bildbeschriftung, Erkennung von Gesichtern und Sehenswürdigkeiten, OCR, SafeSearch.

Kostengünstig, nutzungsabhängige Abrechnung.

Optimal für

Informationen aus gescannten Dokumenten und Bildern extrahieren, Dokument-Workflows automatisieren

Wichtige Features

OCR (unterstützt durch generative KI), NLP, ML für das Verstehen von Dokumenten, Textextraktion, Entitätsidentifikation, Dokumentkategorisierung.

Optimal für

Videoinhalte analysieren, Inhalte moderieren und empfehlen, Medienarchive und kontextbezogene Anzeigen

Wichtige Features

Objekterkennung und -verfolgung, Szenenerkennung, Aktivitätserkennung, Gesichtserkennung und -analyse, Texterkennung.

Optimal für

Aufgaben der visuellen Inspektionen in der Fertigungs- und Industriebranche automatisieren

Wichtige Features

Anomalien erkennen, Fehler erkennen und lokalisieren und die Montage überprüfen.

Optimal für

Benutzerdefinierte Modelle für spezifische Anforderungen erstellen und bereitstellen

Wichtige Features

Tools zur Datenvorbereitung, Modelltraining und ‑bereitstellung, vollständige Kontrolle über Ihre Lösung. Erfordert technisches Fachwissen.

Optimal für

Automatische Bildbeschreibungen 

Bildklassifizierung und ‑suche

Inhaltsmoderation und Empfehlungen

Wichtige Features

Bildgenerierung, Bildbearbeitung, visuelle Untertitel und multimodale Einbettung.

Vollständige Liste der Funktionen und ihrer Markteinführungsphasen ansehen

Diese Produkte sind für verschiedene Zwecke optimiert und bieten Ihnen die Möglichkeit, vortrainierte ML-Modelle zu nutzen und sofort durchzustarten, mit der Möglichkeit einer einfachen Feinabstimmung.

Funktionsweise

Die Vision AI-Tools von Google Cloud kombinieren Computer Vision mit anderen Technologien, um Videos zu verstehen und zu analysieren. Außerdem lassen sich Funktionen zur visuellen Erkennung einfach in Anwendungen einbinden, darunter Bildlabeling, Gesichts- und Landmarkenerkennung, optische Zeichenerkennung (OCR) und das Tagging anstößiger Inhalte.

Diese Tools sind über APIs verfügbar und können an spezifische Anforderungen angepasst werden.

Frau neben einem Video mit dem Titel „So funktioniert Computer Vision“
So funktioniert Computer Vision

Demo

Computer Vision mit eigenen Dateien testen

Gängige Einsatzmöglichkeiten

Text in Rohdateien erkennen und automatisch zusammenfassen

Große Dokumente mit generativer KI zusammenfassen

Die im Architekturdiagramm rechts dargestellte Lösung stellt eine Pipeline bereit, die ausgelöst wird, wenn Sie Ihrem Cloud Storage-Bucket ein neues PDF-Dokument hinzufügen. Die Pipeline extrahiert Text aus Ihrem Dokument, erstellt eine Zusammenfassung aus dem extrahierten Text und speichert die Zusammenfassung in einer Datenbank, damit Sie sie ansehen und durchsuchen können.

Sie können die Anwendung aufrufen, indem Sie entweder Dateien über Jupyter Notebook oder direkt in Cloud Storage in der Google Cloud Console hochladen.

Referenzarchitektur für die Zusammenfassung von Dokumenten mit generativer KI
Referenzarchitektur: Zusammenfassung von Dokumenten mit generativer KI

Geschätzte Bereitstellungszeit: 11 Minuten (1 Minute für das Konfigurieren, 10 Minuten für das Bereitstellen).

Große Dokumente mit generativer KI zusammenfassen

Die im Architekturdiagramm rechts dargestellte Lösung stellt eine Pipeline bereit, die ausgelöst wird, wenn Sie Ihrem Cloud Storage-Bucket ein neues PDF-Dokument hinzufügen. Die Pipeline extrahiert Text aus Ihrem Dokument, erstellt eine Zusammenfassung aus dem extrahierten Text und speichert die Zusammenfassung in einer Datenbank, damit Sie sie ansehen und durchsuchen können.

Sie können die Anwendung aufrufen, indem Sie entweder Dateien über Jupyter Notebook oder direkt in Cloud Storage in der Google Cloud Console hochladen.

Referenzarchitektur für die Zusammenfassung von Dokumenten mit generativer KI
Referenzarchitektur: Zusammenfassung von Dokumenten mit generativer KI

Geschätzte Bereitstellungszeit: 11 Minuten (1 Minute für das Konfigurieren, 10 Minuten für das Bereitstellen).

Pipeline für die Bildverarbeitung erstellen

Skalierbare Bildverarbeitung mit einer serverlosen Architektur

Die in der Abbildung rechts dargestellte Lösung verwendet vortrainierte Modelle für maschinelles Lernen, um von Nutzern bereitgestellte Bilder zu analysieren und Bildanmerkungen zu generieren. Durch die Bereitstellung dieser Lösung wird ein Bildverarbeitungsdienst erstellt, der Sie unter anderem beim Umgang mit schädlichen, benutzerdefinierten Inhalten, der Digitalisierung von Texten aus physischen Dokumenten und der Klassifizierung von Objekten in Bildern unterstützen kann:

Sie können Konfigurations- und Sicherheitseinstellungen prüfen, um zu verstehen, wie der Bildverarbeitungsdienst an verschiedene Anforderungen angepasst werden kann.

Referenzarchitektur – Pipeline für die Bildverarbeitung

Geschätzte Bereitstellungszeit: 12 Minuten (2 Minuten für das Konfigurieren, 10 Minuten für das Bereitstellen).

Skalierbare Bildverarbeitung mit einer serverlosen Architektur

Die in der Abbildung rechts dargestellte Lösung verwendet vortrainierte Modelle für maschinelles Lernen, um von Nutzern bereitgestellte Bilder zu analysieren und Bildanmerkungen zu generieren. Durch die Bereitstellung dieser Lösung wird ein Bildverarbeitungsdienst erstellt, der Sie unter anderem beim Umgang mit schädlichen, benutzerdefinierten Inhalten, der Digitalisierung von Texten aus physischen Dokumenten und der Klassifizierung von Objekten in Bildern unterstützen kann:

Sie können Konfigurations- und Sicherheitseinstellungen prüfen, um zu verstehen, wie der Bildverarbeitungsdienst an verschiedene Anforderungen angepasst werden kann.

Referenzarchitektur – Pipeline für die Bildverarbeitung

Geschätzte Bereitstellungszeit: 12 Minuten (2 Minuten für das Konfigurieren, 10 Minuten für das Bereitstellen).

Automatische Bildbeschreibungen mit generativer KI

Mit der Funktion Visuelle Untertitel von Imagen können Sie eine relevante Beschreibung für ein Bild generieren. Sie können sie verwenden, um detailliertere Metadaten zu Bildern zum Speichern und Suchen zu erhalten und automatische Untertitel zu erstellen, um Anwendungsfälle für Barrierefreiheit zu unterstützen und Kurzbeschreibungen von Produkten und visuellen Assets zu erhalten.

Diese Funktion ist auf Deutsch, Englisch, Französisch, Italienisch und Spanisch verfügbar und kann in der Google Cloud Console oder über einen API-Aufruf aufgerufen werden.

Mit der Funktion Visuelle Untertitel von Imagen können Sie eine relevante Beschreibung für ein Bild generieren. Sie können sie verwenden, um detailliertere Metadaten zu Bildern zum Speichern und Suchen zu erhalten und automatische Untertitel zu erstellen, um Anwendungsfälle für Barrierefreiheit zu unterstützen und Kurzbeschreibungen von Produkten und visuellen Assets zu erhalten.

Diese Funktion ist auf Deutsch, Englisch, Französisch, Italienisch und Spanisch verfügbar und kann in der Google Cloud Console oder über einen API-Aufruf aufgerufen werden.

Streamverarbeitung von Videos

Mit Vertex AI Vision Informationen aus gestreamten Videos gewinnen

Bevor Sie Ihre Videodaten mit Ihrer Anwendung analysieren, erstellen Sie mit dem Streams-Dienst in Vertex AI Vision eine Pipeline für den kontinuierlichen Datenfluss. Die aufgenommenen Daten werden dann von den vortrainierten Modellen von Google oder Ihrem benutzerdefinierten Modell analysiert. Die Analyseergebnisse aus den Streams werden dann in Vertex AI Vision Warehouse gespeichert. Dort können Sie mit erweiterten KI-gestützten Suchfunktionen unstrukturierte Medieninhalte abfragen.

Referenzarchitektur – Prozessvideos mit Vertex AI Vision und anderen Google Cloud-Tools streamen
Referenzarchitektur – Prozessvideos mit Vertex AI Vision und anderen Google Cloud-Tools streamen

Mit Vertex AI Vision Informationen aus gestreamten Videos gewinnen

Bevor Sie Ihre Videodaten mit Ihrer Anwendung analysieren, erstellen Sie mit dem Streams-Dienst in Vertex AI Vision eine Pipeline für den kontinuierlichen Datenfluss. Die aufgenommenen Daten werden dann von den vortrainierten Modellen von Google oder Ihrem benutzerdefinierten Modell analysiert. Die Analyseergebnisse aus den Streams werden dann in Vertex AI Vision Warehouse gespeichert. Dort können Sie mit erweiterten KI-gestützten Suchfunktionen unstrukturierte Medieninhalte abfragen.

Referenzarchitektur – Prozessvideos mit Vertex AI Vision und anderen Google Cloud-Tools streamen
Referenzarchitektur – Prozessvideos mit Vertex AI Vision und anderen Google Cloud-Tools streamen

Mit generativer KI Text und Informationen aus Dokumenten extrahieren

Mit Document AI Erkenntnisse aus differenzierten Dokumenten gewinnen

Document AI Custom Extractor basiert auf einem grundlegenden Modell und extrahiert Text und Daten aus generischen und fachspezifischen Dokumenten schneller und mit höherer Genauigkeit. Mit nur 5–10 Dokumenten können Sie ganz einfach Anpassungen vornehmen – für noch bessere Leistung.

Wenn Sie ein eigenes Modell trainieren möchten, können Sie den Datasets mit dem Basismodell automatische Labels hinzufügen, um die Produktion zu beschleunigen.

Sie können auch vortrainierte spezialisierte Prozessoren verwenden. Hier finden Sie eine vollständige Liste der Prozessoren.

Mit Document AI Erkenntnisse aus differenzierten Dokumenten gewinnen

Document AI Custom Extractor basiert auf einem grundlegenden Modell und extrahiert Text und Daten aus generischen und fachspezifischen Dokumenten schneller und mit höherer Genauigkeit. Mit nur 5–10 Dokumenten können Sie ganz einfach Anpassungen vornehmen – für noch bessere Leistung.

Wenn Sie ein eigenes Modell trainieren möchten, können Sie den Datasets mit dem Basismodell automatische Labels hinzufügen, um die Produktion zu beschleunigen.

Sie können auch vortrainierte spezialisierte Prozessoren verwenden. Hier finden Sie eine vollständige Liste der Prozessoren.

Präzise Sichtprüfung

Qualitätsprüfung mit Visual Inspection AI automatisieren

Visual Inspection AI wird bei jedem Schritt optimiert. Die Einrichtung ist einfach und der ROI lässt sich schnell erkennen. Mit bis zu 300-mal weniger beschrifteten Bildern zum Trainieren von Hochleistungsinspektionsmodellen als bei ML-Plattformen für allgemeine Zwecke liefert es nachweislich eine bis zu zehnmal höhere Genauigkeit. Sie können Modelle auch ohne technisches Fachwissen trainieren und sie werden lokal ausgeführt. Das Beste daran ist, dass die Modelle kontinuierlich mit Daten aus der Fabrik aktualisiert werden können, was die Genauigkeit erhöht, wenn Sie neue Anwendungsfälle entdecken.

Referenzarchitektur für Qualitätsprüfungen mit Visual Inspection AI

Qualitätsprüfung mit Visual Inspection AI automatisieren

Visual Inspection AI wird bei jedem Schritt optimiert. Die Einrichtung ist einfach und der ROI lässt sich schnell erkennen. Mit bis zu 300-mal weniger beschrifteten Bildern zum Trainieren von Hochleistungsinspektionsmodellen als bei ML-Plattformen für allgemeine Zwecke liefert es nachweislich eine bis zu zehnmal höhere Genauigkeit. Sie können Modelle auch ohne technisches Fachwissen trainieren und sie werden lokal ausgeführt. Das Beste daran ist, dass die Modelle kontinuierlich mit Daten aus der Fabrik aktualisiert werden können, was die Genauigkeit erhöht, wenn Sie neue Anwendungsfälle entdecken.

Referenzarchitektur für Qualitätsprüfungen mit Visual Inspection AI

Preise

Preisgestaltung von Vision AIJedes Vision-Angebot umfasst eine Reihe von Features oder Prozessoren zu unterschiedlichen Preisen. Weitere Informationen finden Sie auf der Seite mit den detaillierten Preisen.
Kostenlose StufeProduct/ServiceErmäßigte PreiseDetails

Vision API

Erste 1.000 Einheiten

pro Monat kostenlos

> 5.000.001 Einheiten

pro Monat

Document AI

Die Preise richten sich nach dem Prozessor.

5.000.001+ Seiten

pro Monat für Enterprise Document OCR-Prozessor

Video Intelligence API

Die ersten 1.000 Minuten

pro Monat sind kostenlos.

100.000+ Minuten

pro Monat

Vertex AI Vision

Die Preise sind funktionsspezifisch.

Imagen – multimodale Einbettungen

0,0001 $

pro Bildeingabe

Imagen – visuelle Untertitel

0,0015 $

pro Bild

Gemini Pro Vision

Preisgestaltung von Vision AI

Jedes Vision-Angebot umfasst eine Reihe von Features oder Prozessoren zu unterschiedlichen Preisen. Weitere Informationen finden Sie auf der Seite mit den detaillierten Preisen.

Vision API

Product/Service

Erste 1.000 Einheiten

pro Monat kostenlos

Ermäßigte Preise

> 5.000.001 Einheiten

pro Monat

Details

Document AI

Product/Service

Die Preise richten sich nach dem Prozessor.

Ermäßigte Preise

5.000.001+ Seiten

pro Monat für Enterprise Document OCR-Prozessor

Details

Video Intelligence API

Product/Service

Die ersten 1.000 Minuten

pro Monat sind kostenlos.

Ermäßigte Preise

100.000+ Minuten

pro Monat

Details

Vertex AI Vision

Product/Service

Die Preise sind funktionsspezifisch.

Ermäßigte Preise

Details

Imagen – multimodale Einbettungen

Product/Service

Ermäßigte Preise

Details

0,0001 $

pro Bildeingabe

Imagen – visuelle Untertitel

Product/Service

Ermäßigte Preise

Details

0,0015 $

pro Bild

Gemini Pro Vision

Product/Service
Ermäßigte Preise
Details

PREISRECHNER

Schätzen Sie die Kosten Ihres Projekts, indem Sie alle benötigten Tools an einem Ort abrufen.

INDIVIDUELLES ANGEBOT

Wenden Sie sich an unser Vertriebsteam, um ein individuelles Angebot für die besonderen Anforderungen Ihrer Organisation zu erhalten.

Proof of Concept starten

Neukunden erhalten ein Guthaben von bis zu 300 $, um Vertex AI und andere Google Cloud-Produkte auszuprobieren.

1.000 Seiten/Monat kostenlos mit Document OCR

Anleitung: Livevideos mit der Video Intelligence API streamen

Anwendung zur Objekterkennung in Vertex AI Vision erstellen

Codebeispiele für die Vision API abrufen

Cloud Vision API
Google Cloud