Testen Sie Gemini 3, unser bestes Modell für Schlussfolgerungen, Programmierung und multimodales Verstehen in der Gemini Enterprise Agent Platform.

Vision AI

Nutzen Sie Informationen aus Bildern, Dokumenten und Videos.

Über APIs können Sie auf fortschrittliche Vision-Modelle zugreifen, um Visionsaufgaben zu automatisieren, Analysen zu optimieren und umsetzbare Informationen zu gewinnen. Oder entwickeln Sie benutzerdefinierte Anwendungen mit programmierfreiem Modelltraining und geringen Kosten in einer verwalteten Umgebung.

Neukunden erhalten ein Guthaben von bis zu 300 $, um Vertex AI und andere Google Cloud-Produkte auszuprobieren.

Sie können auch versuchen, von Google empfohlene Lösungen für das Zusammenfassen von Dokumenten und die KI/ML-Bildverarbeitung bereitzustellen.

Überblick

Was ist Computer Vision?

Computer Vision ist ein Bereich der künstlichen Intelligenz (KI), der es Computern und Systemen ermöglicht, visuelle Daten zu interpretieren und zu analysieren und aus digitalen Bildern, Videos und anderen visuellen Elementen aussagekräftige Informationen abzuleiten. Zu den typischen Anwendungen in der Praxis gehören: Objekterkennung, Verarbeitung visueller Inhalte (Bilder, Dokumente, Videos), Verständnis und Analyse, Produktsuche, Bildklassifizierung und -suche sowie Inhaltsmoderation.

Fortschrittliche multimodale generative KI

Die Gemini Enterprise Agent Platform von Google Cloud bietet Zugriff auf Gemini, eine Familie hochmoderner, multimodaler Modelle, die praktisch jede Eingabe verstehen, verschiedene Arten von Informationen kombinieren und fast jede Ausgabe generieren können.

Generative KI mit Fokus auf Vision

Imagen stellt Anwendungsentwicklern auf der Agent Platform über eine API die hochmodernen Funktionen für generative KI von Google zur Verfügung. Zu den wichtigsten Funktionen gehören die Bildgenerierung mit Text-Prompts, die Bildbearbeitung mit Text-Prompts, das Beschreiben eines Bildes in Text und die Feinabstimmung des Themenmodells.

Einsatzbereite Vision AI

Die Cloud Vision API basiert auf vortrainierten ML-Modellen für Computer Vision von Google und ist eine sofort verfügbare API (REST und RPC), mit der Entwickler gängige Funktionen zur visuellen Erkennung einfach in Anwendungen einbinden können. Dazu gehören: Bildbeschriftung, Erkennung von Gesichtern und Sehenswürdigkeiten, optische Zeichenerkennung (Optical Character Recognition, OCR) und Taggen von anstößigen Inhalten.

Jede Funktion, die Sie auf ein Bild anwenden, ist eine kostenpflichtige Einheit. Mit der Cloud Vision API können Sie jeden Monat 1.000 Funktionen des Features kostenlos nutzen. Beachten Sie die Preisangaben.

Dokumentverständnis – Generative KI

Document AI ist eine Plattform zum Verstehen von Dokumenten, die Computer Vision und andere Technologien wie Natural Language Processing kombiniert, um Text und Daten aus gescannten Dokumenten zu extrahieren und unstrukturierte Daten in strukturierte Informationen und Geschäftseinblicke umzuwandeln.

Es bietet eine breite Palette vortrainierter Prozessoren, die für verschiedene Arten von Dokumenten optimiert sind. Außerdem lassen sich damit ganz einfach benutzerdefinierte Prozessoren zum Klassifizieren, Aufteilen und Extrahieren strukturierter Daten aus Dokumenten über Document AI Workbench erstellen.

Lautsprecher neben Videotitel: Document AI – die Zukunft von Dokumenten

Einführung in Document AI

4:37

Einsatzbereite Vision AI für Videos

Mit der Technologie für Computer Vision im Kern stellt die Video Intelligence API eine einfache Möglichkeit dar, Videoinhalte zu verarbeiten, zu analysieren und zu verstehen.

Die vortrainierten ML-Modelle erkennen automatisch eine Vielzahl von Objekten, Orten und Aktionen in gespeicherten und gestreamten Videos in außergewöhnlicher Qualität. Diese Lösung ist äußerst effizient bei häufigen Anwendungsfällen wie Inhaltsmoderation und -empfehlung, Medienarchiven und kontextbezogene Werbung. Sie können auch benutzerdefinierte ML-Modelle mit Agent Platform Vision für Ihre spezifischen Anforderungen trainieren.

Video mit dem Titel „Mit ML ein Videoarchiv erstellen“ über einer Collage mit Familienfotos

Demo: Mit der Video Intelligence API ein durchsuchbares Videoarchiv erstellen

6:21

Daten, Datenschutz und Sicherheit

Google Cloud bietet branchenführende Funktionen, die Ihnen – unseren Kunden – die Kontrolle über Ihre Daten geben und Transparenz bieten, wann und wie auf sie zugegriffen wird.

Als Google Cloud-Kunde sind Sie der Inhaber Ihrer Kundendaten. Wir setzen strenge Sicherheitsmaßnahmen ein, um Ihre Kundendaten zu schützen und stellen Ihnen Tools und Funktionen zur Verfügung, mit denen Sie Ihre Kundendaten selbst kontrollieren können. Kundendaten gehören Ihnen und nicht Google. Wir verarbeiten Ihre Daten nur gemäß den mit Ihnen geschlossenen Vereinbarungen.

Weitere Informationen findest du in unserem Datenschutz-Center.

Produkte für maschinelles Sehen vergleichen

Angebot	Optimal für	Wichtige Features
Cloud Vision API	Schnelle und einfache Einbindung grundlegender Bildverarbeitungsfunktionen.	Vordefinierte Funktionen wie Bildbeschriftung, Erkennung von Gesichtern und Sehenswürdigkeiten, OCR, SafeSearch. Kostengünstig, nutzungsabhängige Abrechnung.
Document AI	Informationen aus gescannten Dokumenten und Bildern extrahieren, Dokument-Workflows automatisieren.	OCR (unterstützt durch generative KI), NLP, ML für das Verstehen von Dokumenten, Textextraktion, Entitätsidentifikation, Dokumentkategorisierung.
Video Intelligence API	Videoinhalte analysieren, Inhalte moderieren und empfehlen, Medienarchive und kontextbasierte Anzeigen.	Objekterkennung und -verfolgung, Szenenerkennung, Aktivitätserkennung, Gesichtserkennung und -analyse, Texterkennung.
Imagen auf der Gemini Enterprise Agent Platform	Automatische Bildbeschreibungen erhalten. Bildklassifizierung und ‑suche. Inhaltsmoderation und Empfehlungen.	Bildgenerierung, Bildbearbeitung, visuelle Untertitel und multimodale Einbettung. Vollständige Liste der Funktionen und ihrer Markteinführungsphasen ansehen.

Diese Produkte sind für verschiedene Zwecke optimiert und bieten Ihnen die Möglichkeit, vortrainierte ML-Modelle zu nutzen und sofort durchzustarten, mit der Möglichkeit einer einfachen Feinabstimmung.

Cloud Vision API

Optimal für

Schnelle und einfache Einbindung grundlegender Bildverarbeitungsfunktionen.

Wichtige Features

Vordefinierte Funktionen wie Bildbeschriftung, Erkennung von Gesichtern und Sehenswürdigkeiten, OCR, SafeSearch.

Kostengünstig, nutzungsabhängige Abrechnung.

Document AI

Optimal für

Informationen aus gescannten Dokumenten und Bildern extrahieren, Dokument-Workflows automatisieren.

Wichtige Features

OCR (unterstützt durch generative KI), NLP, ML für das Verstehen von Dokumenten, Textextraktion, Entitätsidentifikation, Dokumentkategorisierung.

Video Intelligence API

Optimal für

Videoinhalte analysieren, Inhalte moderieren und empfehlen, Medienarchive und kontextbasierte Anzeigen.

Wichtige Features

Objekterkennung und -verfolgung, Szenenerkennung, Aktivitätserkennung, Gesichtserkennung und -analyse, Texterkennung.

Imagen auf der Gemini Enterprise Agent Platform

Optimal für

Automatische Bildbeschreibungen erhalten.

Bildklassifizierung und ‑suche.

Inhaltsmoderation und Empfehlungen.

Wichtige Features

Bildgenerierung, Bildbearbeitung, visuelle Untertitel und multimodale Einbettung.

Vollständige Liste der Funktionen und ihrer Markteinführungsphasen ansehen.

Diese Produkte sind für verschiedene Zwecke optimiert und bieten Ihnen die Möglichkeit, vortrainierte ML-Modelle zu nutzen und sofort durchzustarten, mit der Möglichkeit einer einfachen Feinabstimmung.

Funktionsweise

Die Vision AI-Tools von Google Cloud kombinieren Computer Vision mit anderen Technologien, um Videos zu verstehen und zu analysieren. Außerdem lassen sich Funktionen zur visuellen Erkennung einfach in Anwendungen einbinden, darunter Bildlabeling, Gesichts- und Landmarkenerkennung, optische Zeichenerkennung (OCR) und das Tagging anstößiger Inhalte.
Diese Tools sind über APIs verfügbar und können an spezifische Anforderungen angepasst werden.

So funktioniert Computer Vision

Demo

Computer Vision mit eigenen Dateien testen

Gängige Einsatzmöglichkeiten

Text in Rohdateien erkennen und automatisch zusammenfassen

Große Dokumente mit generativer KI zusammenfassen

Die im Architekturdiagramm rechts dargestellte Lösung stellt eine Pipeline bereit, die ausgelöst wird, wenn Sie Ihrem Cloud Storage-Bucket ein neues PDF-Dokument hinzufügen. Die Pipeline extrahiert Text aus Ihrem Dokument, erstellt eine Zusammenfassung aus dem extrahierten Text und speichert die Zusammenfassung in einer Datenbank, damit Sie sie ansehen und durchsuchen können.

Sie können die Anwendung aufrufen, indem Sie Dateien über Jupyter Notebook oder direkt über die Google Cloud Console in Cloud Storage hochladen.

Referenzarchitektur für die Zusammenfassung von Dokumenten mit generativer KI

Referenzarchitektur: Zusammenfassung von Dokumenten mit generativer KI

Geschätzte Bereitstellungszeit: 11 Minuten (1 Minute für das Konfigurieren, 10 Minuten für das Bereitstellen).

Anleitungen

Große Dokumente mit generativer KI zusammenfassen

Die im Architekturdiagramm rechts dargestellte Lösung stellt eine Pipeline bereit, die ausgelöst wird, wenn Sie Ihrem Cloud Storage-Bucket ein neues PDF-Dokument hinzufügen. Die Pipeline extrahiert Text aus Ihrem Dokument, erstellt eine Zusammenfassung aus dem extrahierten Text und speichert die Zusammenfassung in einer Datenbank, damit Sie sie ansehen und durchsuchen können.

Sie können die Anwendung aufrufen, indem Sie Dateien über Jupyter Notebook oder direkt über die Google Cloud Console in Cloud Storage hochladen.

Referenzarchitektur: Zusammenfassung von Dokumenten mit generativer KI

Geschätzte Bereitstellungszeit: 11 Minuten (1 Minute für das Konfigurieren, 10 Minuten für das Bereitstellen).

Pipeline für die Bildverarbeitung erstellen

Skalierbare Bildverarbeitung mit einer serverlosen Architektur

Die in der Abbildung rechts dargestellte Lösung verwendet vortrainierte Modelle für maschinelles Lernen, um von Nutzern bereitgestellte Bilder zu analysieren und Bildanmerkungen zu generieren. Durch die Bereitstellung dieser Lösung wird ein Bildverarbeitungsdienst erstellt, der Sie unter anderem beim Umgang mit schädlichen, benutzerdefinierten Inhalten, der Digitalisierung von Texten aus physischen Dokumenten und der Klassifizierung von Objekten in Bildern unterstützen kann:

Sie können Konfigurations- und Sicherheitseinstellungen prüfen, um zu verstehen, wie der Bildverarbeitungsdienst an verschiedene Anforderungen angepasst werden kann.

Referenzarchitektur – Pipeline für die Bildverarbeitung

Geschätzte Bereitstellungszeit: 12 Minuten (2 Minuten für das Konfigurieren, 10 Minuten für das Bereitstellen).

Anleitungen

Skalierbare Bildverarbeitung mit einer serverlosen Architektur

Die in der Abbildung rechts dargestellte Lösung verwendet vortrainierte Modelle für maschinelles Lernen, um von Nutzern bereitgestellte Bilder zu analysieren und Bildanmerkungen zu generieren. Durch die Bereitstellung dieser Lösung wird ein Bildverarbeitungsdienst erstellt, der Sie unter anderem beim Umgang mit schädlichen, benutzerdefinierten Inhalten, der Digitalisierung von Texten aus physischen Dokumenten und der Klassifizierung von Objekten in Bildern unterstützen kann:

Sie können Konfigurations- und Sicherheitseinstellungen prüfen, um zu verstehen, wie der Bildverarbeitungsdienst an verschiedene Anforderungen angepasst werden kann.

Geschätzte Bereitstellungszeit: 12 Minuten (2 Minuten für das Konfigurieren, 10 Minuten für das Bereitstellen).

Automatische Bildbeschreibungen mit generativer KI

Mit der Funktion Visuelle Untertitel von Imagen können Sie eine relevante Beschreibung für ein Bild generieren. Sie können sie verwenden, um detailliertere Metadaten zu Bildern zum Speichern und Suchen zu erhalten und automatische Untertitel zu erstellen, um Anwendungsfälle für Barrierefreiheit zu unterstützen und Kurzbeschreibungen von Produkten und visuellen Assets zu erhalten.

Diese Funktion ist auf Deutsch, Englisch, Französisch, Italienisch und Spanisch verfügbar und kann in der Google Cloud Console oder über einen API-Aufruf aufgerufen werden.

Anleitungen

Mit der Funktion Visuelle Untertitel von Imagen können Sie eine relevante Beschreibung für ein Bild generieren. Sie können sie verwenden, um detailliertere Metadaten zu Bildern zum Speichern und Suchen zu erhalten und automatische Untertitel zu erstellen, um Anwendungsfälle für Barrierefreiheit zu unterstützen und Kurzbeschreibungen von Produkten und visuellen Assets zu erhalten.

Diese Funktion ist auf Deutsch, Englisch, Französisch, Italienisch und Spanisch verfügbar und kann in der Google Cloud Console oder über einen API-Aufruf aufgerufen werden.

Mit generativer KI Text und Informationen aus Dokumenten extrahieren

Mit Document AI Erkenntnisse aus differenzierten Dokumenten gewinnen

Document AI Custom Extractor basiert auf einem grundlegenden Modell und extrahiert Text und Daten aus generischen und fachspezifischen Dokumenten schneller und mit höherer Genauigkeit. Mit nur 5–10 Dokumenten können Sie ganz einfach Anpassungen vornehmen – für noch bessere Leistung.

Wenn Sie ein eigenes Modell trainieren möchten, können Sie den Datasets mit dem Basismodell automatische Labels hinzufügen, um die Produktion zu beschleunigen.

Sie können auch vortrainierte spezialisierte Prozessoren verwenden. Hier finden Sie eine vollständige Liste der Prozessoren.

Anleitungen

Mit Document AI Erkenntnisse aus differenzierten Dokumenten gewinnen

Document AI Custom Extractor basiert auf einem grundlegenden Modell und extrahiert Text und Daten aus generischen und fachspezifischen Dokumenten schneller und mit höherer Genauigkeit. Mit nur 5–10 Dokumenten können Sie ganz einfach Anpassungen vornehmen – für noch bessere Leistung.

Wenn Sie ein eigenes Modell trainieren möchten, können Sie den Datasets mit dem Basismodell automatische Labels hinzufügen, um die Produktion zu beschleunigen.

Sie können auch vortrainierte spezialisierte Prozessoren verwenden. Hier finden Sie eine vollständige Liste der Prozessoren.

Preise

Preisgestaltung von Vision AI	Jedes Vision-Angebot umfasst eine Reihe von Features oder Prozessoren zu unterschiedlichen Preisen. Weitere Informationen finden Sie auf der Seite mit den detaillierten Preisen.
Kostenlose Stufe	Product/Service	Ermäßigte Preise	Details
Vision API	Erste 1.000 Einheiten pro Monat kostenlos	> 5.000.001 Einheiten pro Monat	Seite mit detaillierten Preisen
Document AI	– Die Preise richten sich nach dem Prozessor.	5.000.001+ Seiten pro Monat für Enterprise Document OCR-Prozessor	Seite mit detaillierten Preisen
Video Intelligence API	Die ersten 1.000 Minuten pro Monat sind kostenlos.	100.000+ Minuten pro Monat	Seite mit detaillierten Preisen
Imagen – multimodale Einbettungen			0,0001 $ pro Bildeingabe
Imagen – visuelle Untertitel			0,0015 $ pro Bild
Gemini Pro Vision			Seite mit detaillierten Preisen

Preisgestaltung von Vision AI

Jedes Vision-Angebot umfasst eine Reihe von Features oder Prozessoren zu unterschiedlichen Preisen. Weitere Informationen finden Sie auf der Seite mit den detaillierten Preisen.

Vision API

Product/Service

Erste 1.000 Einheiten

pro Monat kostenlos

Ermäßigte Preise

> 5.000.001 Einheiten

pro Monat

Details

Seite mit detaillierten Preisen

Document AI

Product/Service

–

Die Preise richten sich nach dem Prozessor.

Ermäßigte Preise

5.000.001+ Seiten

pro Monat für Enterprise Document OCR-Prozessor

Details

Seite mit detaillierten Preisen

Video Intelligence API

Product/Service

Die ersten 1.000 Minuten

pro Monat sind kostenlos.

Ermäßigte Preise

100.000+ Minuten

pro Monat

Details

Seite mit detaillierten Preisen

Imagen – multimodale Einbettungen

Product/Service

Ermäßigte Preise

Details

0,0001 $

pro Bildeingabe

Imagen – visuelle Untertitel

Product/Service

Ermäßigte Preise

Details

0,0015 $

pro Bild

Gemini Pro Vision

Product/Service

Ermäßigte Preise

Details

Seite mit detaillierten Preisen

PREISRECHNER

Schätzen Sie die Kosten Ihres Projekts, indem Sie alle benötigten Tools an einem Ort abrufen.

INDIVIDUELLES ANGEBOT

Wenden Sie sich an unser Vertriebsteam, um ein individuelles Angebot für die besonderen Anforderungen Ihrer Organisation zu erhalten.

Vision AI

Nutzen Sie Informationen aus Bildern, Dokumenten und Videos.

Highlights

Was ist Computer Vision?

Fortschrittliche multimodale generative KI

Generative KI mit Fokus auf Vision

Einsatzbereite Vision AI

Dokumentverständnis – Generative KI

Einsatzbereite Vision AI für Videos

Daten, Datenschutz und Sicherheit

Computer Vision mit eigenen Dateien testen

Text in Rohdateien erkennen und automatisch zusammenfassen

Große Dokumente mit generativer KI zusammenfassen

Anleitungen

Große Dokumente mit generativer KI zusammenfassen

Pipeline für die Bildverarbeitung erstellen

Skalierbare Bildverarbeitung mit einer serverlosen Architektur

Anleitungen

Skalierbare Bildverarbeitung mit einer serverlosen Architektur

Automatische Bildbeschreibungen mit generativer KI

Anleitungen

Mit generativer KI Text und Informationen aus Dokumenten extrahieren

Mit Document AI Erkenntnisse aus differenzierten Dokumenten gewinnen

Anleitungen

Mit Document AI Erkenntnisse aus differenzierten Dokumenten gewinnen

PREISRECHNER

INDIVIDUELLES ANGEBOT

Proof of Concept starten

Neukunden erhalten ein Guthaben von bis zu 300 $, um Vertex AI und andere Google Cloud-Produkte auszuprobieren.

1.000 Seiten/Monat kostenlos mit Document OCR

Anleitung: Livevideos mit der Video Intelligence API streamen

Anleitung zum Erstellen einer Objekterkennungs-App in der Gemini Enterprise Agent Platform

Codebeispiele für die Vision API abrufen