Über APIs können Sie auf fortschrittliche Vision-Modelle zugreifen, um Visionsaufgaben zu automatisieren, Analysen zu optimieren und umsetzbare Informationen zu gewinnen. Oder entwickeln Sie benutzerdefinierte Anwendungen mit programmierfreiem Modelltraining und geringen Kosten in einer verwalteten Umgebung.
Neukunden erhalten ein Guthaben von bis zu 300 $, um Vertex AI und andere Google Cloud-Produkte auszuprobieren.
Sie können auch versuchen, von Google empfohlene Lösungen für das Zusammenfassen von Dokumenten und die KI-/ML-Bildverarbeitung bereitzustellen.
Überblick
Computer Vision ist ein Bereich der künstlichen Intelligenz (KI), der es Computern und Systemen ermöglicht, visuelle Daten zu interpretieren und zu analysieren und aus digitalen Bildern, Videos und anderen visuellen Elementen aussagekräftige Informationen abzuleiten. Zu den typischen Anwendungen in der Praxis gehören: Objekterkennung, Verarbeitung visueller Inhalte (Bilder, Dokumente, Videos), Verständnis und Analyse, Produktsuche, Bildklassifizierung und -suche sowie Inhaltsmoderation.
Vertex AI von Google Cloud bietet Zugriff auf Gemini, ein hochmodernes, multimodales Modell, das praktisch jede Eingabe verstehen, verschiedene Arten von Informationen kombinieren und fast jede Ausgabe generieren kann.
Imagen in Vertex AI stellt Anwendungsentwicklern über eine API die hochmodernen Funktionen für generative KI von Google zur Verfügung. Zu den wichtigsten Funktionen gehören die Bildgenerierung mit Text-Prompts, die Bildbearbeitung mit Text-Prompts, das Beschreiben eines Bildes in Text und die Feinabstimmung des Themenmodells.
Die Cloud Vision API basiert auf vortrainierten ML-Modellen für Computer Vision von Google und ist eine sofort verfügbare API (REST und RPC), mit der Entwickler gängige Funktionen zur visuellen Erkennung einfach in Anwendungen einbinden können. Dazu gehören: Bildbeschriftung, Erkennung von Gesichtern und Sehenswürdigkeiten, optische Zeichenerkennung (Optical Character Recognition, OCR) und Taggen von anstößigen Inhalten.
Jede Funktion, die Sie auf ein Bild anwenden, ist eine kostenpflichtige Einheit. Mit der Cloud Vision API können Sie jeden Monat 1.000 Funktionen des Features kostenlos nutzen. Beachten Sie die Preisangaben.
Document AI ist eine Plattform zum Verstehen von Dokumenten, die Computer Vision und andere Technologien wie Natural Language Processing kombiniert, um Text und Daten aus gescannten Dokumenten zu extrahieren und unstrukturierte Daten in strukturierte Informationen und Geschäftseinblicke umzuwandeln.
Es bietet eine breite Palette vortrainierter Prozessoren, die für verschiedene Arten von Dokumenten optimiert sind. Außerdem lassen sich damit ganz einfach benutzerdefinierte Prozessoren zum Klassifizieren, Aufteilen und Extrahieren strukturierter Daten aus Dokumenten über Document AI Workbench erstellen.
Mit der Technologie für Computer Vision im Kern stellt die Video Intelligence API eine einfache Möglichkeit dar, Videoinhalte zu verarbeiten, zu analysieren und zu verstehen.
Die vortrainierten ML-Modelle erkennen automatisch eine Vielzahl von Objekten, Orten und Aktionen in gespeicherten und gestreamten Videos in außergewöhnlicher Qualität. Diese Lösung ist äußerst effizient bei häufigen Anwendungsfällen wie Inhaltsmoderation und -empfehlung, Medienarchiven und kontextbezogene Werbung. Sie können auch benutzerdefinierte ML-Modelle mit Vertex AI Vision für Ihre spezifischen Anforderungen trainieren.
Visual Inspection AI automatisiert visuelle Inspektionsaufgaben in der Fertigung und in anderen industriellen Umgebungen. Dabei kommen fortschrittliche Techniken für Computer Vision und Deep Learning zum Einsatz, um Bilder und Videos zu analysieren, Anomalien zu identifizieren, Fehler zu erkennen und zu lokalisieren sowie fehlende und defekte Teile in montierten Produkten zu prüfen.
Sie können benutzerdefinierte Modelle ohne technisches Fachwissen und mit minimalen Labels für Bilder trainieren, Inferenzen an Produktionslinien effizient ausführen und Modelle kontinuierlich mit aktuellen Daten aus der Fabrik aktualisieren.
Vertex AI Vision ist eine vollständig verwaltete Umgebung für die Anwendungsentwicklung, mit der Entwicklerinnen und Entwickler ganz einfach Anwendungen für Computer Vision erstellen, bereitstellen und verwalten können, um unterschiedliche Datenmodalitäten wie Texte, Bilder, Video- und tabellarische Daten zu verarbeiten. Sie verkürzt die Dauer von Tagen auf Minuten bei einem Zehntel der Kosten der aktuellen Angebote.
Sie können Ihre eigenen benutzerdefinierten Modelle erstellen und bereitstellen sowie mit CI/CD-Pipelines verwalten und skalieren. Sie lässt sich auch in beliebte Open-Source-Tools wie TensorFlow und PyTorch einbinden.
Google Cloud bietet branchenführende Funktionen, die Ihnen – unseren Kunden – die Kontrolle über Ihre Daten geben und Transparenz bieten, wann und wie auf sie zugegriffen wird.
Als Google Cloud-Kunde sind Sie der Inhaber Ihrer Kundendaten. Wir setzen strenge Sicherheitsmaßnahmen ein, um Ihre Kundendaten zu schützen und stellen Ihnen Tools und Funktionen zur Verfügung, mit denen Sie Ihre Kundendaten selbst kontrollieren können. Kundendaten gehören Ihnen und nicht Google. Wir verarbeiten Ihre Daten nur gemäß den mit Ihnen geschlossenen Vereinbarungen.
Weitere Informationen findest du in unserem Datenschutz-Center.
Produkte für maschinelles Sehen vergleichen
| Angebot | Optimal für | Wichtige Features |
|---|---|---|
Schnelle und einfache Einbindung grundlegender Bildverarbeitungsfunktionen | Vordefinierte Funktionen wie Bildbeschriftung, Erkennung von Gesichtern und Sehenswürdigkeiten, OCR, SafeSearch. Kostengünstig, nutzungsabhängige Abrechnung. | |
Informationen aus gescannten Dokumenten und Bildern extrahieren, Dokument-Workflows automatisieren | OCR (unterstützt durch generative KI), NLP, ML für das Verstehen von Dokumenten, Textextraktion, Entitätsidentifikation, Dokumentkategorisierung. | |
Videoinhalte analysieren, Inhalte moderieren und empfehlen, Medienarchive und kontextbezogene Anzeigen | Objekterkennung und -verfolgung, Szenenerkennung, Aktivitätserkennung, Gesichtserkennung und -analyse, Texterkennung. | |
Aufgaben der visuellen Inspektionen in der Fertigungs- und Industriebranche automatisieren | Anomalien erkennen, Fehler erkennen und lokalisieren und die Montage überprüfen. | |
Benutzerdefinierte Modelle für spezifische Anforderungen erstellen und bereitstellen | Tools zur Datenvorbereitung, Modelltraining und ‑bereitstellung, vollständige Kontrolle über Ihre Lösung. Erfordert technisches Fachwissen. | |
Automatische Bildbeschreibungen Bildklassifizierung und ‑suche Inhaltsmoderation und Empfehlungen | Bildgenerierung, Bildbearbeitung, visuelle Untertitel und multimodale Einbettung. Vollständige Liste der Funktionen und ihrer Markteinführungsphasen ansehen |
Diese Produkte sind für verschiedene Zwecke optimiert und bieten Ihnen die Möglichkeit, vortrainierte ML-Modelle zu nutzen und sofort durchzustarten, mit der Möglichkeit einer einfachen Feinabstimmung.
Schnelle und einfache Einbindung grundlegender Bildverarbeitungsfunktionen
Vordefinierte Funktionen wie Bildbeschriftung, Erkennung von Gesichtern und Sehenswürdigkeiten, OCR, SafeSearch.
Kostengünstig, nutzungsabhängige Abrechnung.
Informationen aus gescannten Dokumenten und Bildern extrahieren, Dokument-Workflows automatisieren
OCR (unterstützt durch generative KI), NLP, ML für das Verstehen von Dokumenten, Textextraktion, Entitätsidentifikation, Dokumentkategorisierung.
Videoinhalte analysieren, Inhalte moderieren und empfehlen, Medienarchive und kontextbezogene Anzeigen
Objekterkennung und -verfolgung, Szenenerkennung, Aktivitätserkennung, Gesichtserkennung und -analyse, Texterkennung.
Aufgaben der visuellen Inspektionen in der Fertigungs- und Industriebranche automatisieren
Anomalien erkennen, Fehler erkennen und lokalisieren und die Montage überprüfen.
Benutzerdefinierte Modelle für spezifische Anforderungen erstellen und bereitstellen
Tools zur Datenvorbereitung, Modelltraining und ‑bereitstellung, vollständige Kontrolle über Ihre Lösung. Erfordert technisches Fachwissen.
Automatische Bildbeschreibungen
Bildklassifizierung und ‑suche
Inhaltsmoderation und Empfehlungen
Bildgenerierung, Bildbearbeitung, visuelle Untertitel und multimodale Einbettung.
Vollständige Liste der Funktionen und ihrer Markteinführungsphasen ansehen
Diese Produkte sind für verschiedene Zwecke optimiert und bieten Ihnen die Möglichkeit, vortrainierte ML-Modelle zu nutzen und sofort durchzustarten, mit der Möglichkeit einer einfachen Feinabstimmung.
Funktionsweise
Die Vision AI-Tools von Google Cloud kombinieren Computer Vision mit anderen Technologien, um Videos zu verstehen und zu analysieren. Außerdem lassen sich Funktionen zur visuellen Erkennung einfach in Anwendungen einbinden, darunter Bildlabeling, Gesichts- und Landmarkenerkennung, optische Zeichenerkennung (OCR) und das Tagging anstößiger Inhalte.
Diese Tools sind über APIs verfügbar und können an spezifische Anforderungen angepasst werden.
Demo
Gängige Einsatzmöglichkeiten
Die im Architekturdiagramm rechts dargestellte Lösung stellt eine Pipeline bereit, die ausgelöst wird, wenn Sie Ihrem Cloud Storage-Bucket ein neues PDF-Dokument hinzufügen. Die Pipeline extrahiert Text aus Ihrem Dokument, erstellt eine Zusammenfassung aus dem extrahierten Text und speichert die Zusammenfassung in einer Datenbank, damit Sie sie ansehen und durchsuchen können.
Sie können die Anwendung aufrufen, indem Sie entweder Dateien über Jupyter Notebook oder direkt in Cloud Storage in der Google Cloud Console hochladen.
Geschätzte Bereitstellungszeit: 11 Minuten (1 Minute für das Konfigurieren, 10 Minuten für das Bereitstellen).
Die im Architekturdiagramm rechts dargestellte Lösung stellt eine Pipeline bereit, die ausgelöst wird, wenn Sie Ihrem Cloud Storage-Bucket ein neues PDF-Dokument hinzufügen. Die Pipeline extrahiert Text aus Ihrem Dokument, erstellt eine Zusammenfassung aus dem extrahierten Text und speichert die Zusammenfassung in einer Datenbank, damit Sie sie ansehen und durchsuchen können.
Sie können die Anwendung aufrufen, indem Sie entweder Dateien über Jupyter Notebook oder direkt in Cloud Storage in der Google Cloud Console hochladen.
Geschätzte Bereitstellungszeit: 11 Minuten (1 Minute für das Konfigurieren, 10 Minuten für das Bereitstellen).
Die in der Abbildung rechts dargestellte Lösung verwendet vortrainierte Modelle für maschinelles Lernen, um von Nutzern bereitgestellte Bilder zu analysieren und Bildanmerkungen zu generieren. Durch die Bereitstellung dieser Lösung wird ein Bildverarbeitungsdienst erstellt, der Sie unter anderem beim Umgang mit schädlichen, benutzerdefinierten Inhalten, der Digitalisierung von Texten aus physischen Dokumenten und der Klassifizierung von Objekten in Bildern unterstützen kann:
Sie können Konfigurations- und Sicherheitseinstellungen prüfen, um zu verstehen, wie der Bildverarbeitungsdienst an verschiedene Anforderungen angepasst werden kann.
Geschätzte Bereitstellungszeit: 12 Minuten (2 Minuten für das Konfigurieren, 10 Minuten für das Bereitstellen).
Die in der Abbildung rechts dargestellte Lösung verwendet vortrainierte Modelle für maschinelles Lernen, um von Nutzern bereitgestellte Bilder zu analysieren und Bildanmerkungen zu generieren. Durch die Bereitstellung dieser Lösung wird ein Bildverarbeitungsdienst erstellt, der Sie unter anderem beim Umgang mit schädlichen, benutzerdefinierten Inhalten, der Digitalisierung von Texten aus physischen Dokumenten und der Klassifizierung von Objekten in Bildern unterstützen kann:
Sie können Konfigurations- und Sicherheitseinstellungen prüfen, um zu verstehen, wie der Bildverarbeitungsdienst an verschiedene Anforderungen angepasst werden kann.
Geschätzte Bereitstellungszeit: 12 Minuten (2 Minuten für das Konfigurieren, 10 Minuten für das Bereitstellen).
Mit der Funktion Visuelle Untertitel von Imagen können Sie eine relevante Beschreibung für ein Bild generieren. Sie können sie verwenden, um detailliertere Metadaten zu Bildern zum Speichern und Suchen zu erhalten und automatische Untertitel zu erstellen, um Anwendungsfälle für Barrierefreiheit zu unterstützen und Kurzbeschreibungen von Produkten und visuellen Assets zu erhalten.
Diese Funktion ist auf Deutsch, Englisch, Französisch, Italienisch und Spanisch verfügbar und kann in der Google Cloud Console oder über einen API-Aufruf aufgerufen werden.
Mit der Funktion Visuelle Untertitel von Imagen können Sie eine relevante Beschreibung für ein Bild generieren. Sie können sie verwenden, um detailliertere Metadaten zu Bildern zum Speichern und Suchen zu erhalten und automatische Untertitel zu erstellen, um Anwendungsfälle für Barrierefreiheit zu unterstützen und Kurzbeschreibungen von Produkten und visuellen Assets zu erhalten.
Diese Funktion ist auf Deutsch, Englisch, Französisch, Italienisch und Spanisch verfügbar und kann in der Google Cloud Console oder über einen API-Aufruf aufgerufen werden.
Bevor Sie Ihre Videodaten mit Ihrer Anwendung analysieren, erstellen Sie mit dem Streams-Dienst in Vertex AI Vision eine Pipeline für den kontinuierlichen Datenfluss. Die aufgenommenen Daten werden dann von den vortrainierten Modellen von Google oder Ihrem benutzerdefinierten Modell analysiert. Die Analyseergebnisse aus den Streams werden dann in Vertex AI Vision Warehouse gespeichert. Dort können Sie mit erweiterten KI-gestützten Suchfunktionen unstrukturierte Medieninhalte abfragen.
Bevor Sie Ihre Videodaten mit Ihrer Anwendung analysieren, erstellen Sie mit dem Streams-Dienst in Vertex AI Vision eine Pipeline für den kontinuierlichen Datenfluss. Die aufgenommenen Daten werden dann von den vortrainierten Modellen von Google oder Ihrem benutzerdefinierten Modell analysiert. Die Analyseergebnisse aus den Streams werden dann in Vertex AI Vision Warehouse gespeichert. Dort können Sie mit erweiterten KI-gestützten Suchfunktionen unstrukturierte Medieninhalte abfragen.
Document AI Custom Extractor basiert auf einem grundlegenden Modell und extrahiert Text und Daten aus generischen und fachspezifischen Dokumenten schneller und mit höherer Genauigkeit. Mit nur 5–10 Dokumenten können Sie ganz einfach Anpassungen vornehmen – für noch bessere Leistung.
Wenn Sie ein eigenes Modell trainieren möchten, können Sie den Datasets mit dem Basismodell automatische Labels hinzufügen, um die Produktion zu beschleunigen.
Sie können auch vortrainierte spezialisierte Prozessoren verwenden. Hier finden Sie eine vollständige Liste der Prozessoren.
Document AI Custom Extractor basiert auf einem grundlegenden Modell und extrahiert Text und Daten aus generischen und fachspezifischen Dokumenten schneller und mit höherer Genauigkeit. Mit nur 5–10 Dokumenten können Sie ganz einfach Anpassungen vornehmen – für noch bessere Leistung.
Wenn Sie ein eigenes Modell trainieren möchten, können Sie den Datasets mit dem Basismodell automatische Labels hinzufügen, um die Produktion zu beschleunigen.
Sie können auch vortrainierte spezialisierte Prozessoren verwenden. Hier finden Sie eine vollständige Liste der Prozessoren.
Visual Inspection AI wird bei jedem Schritt optimiert. Die Einrichtung ist einfach und der ROI lässt sich schnell erkennen. Mit bis zu 300-mal weniger beschrifteten Bildern zum Trainieren von Hochleistungsinspektionsmodellen als bei ML-Plattformen für allgemeine Zwecke liefert es nachweislich eine bis zu zehnmal höhere Genauigkeit. Sie können Modelle auch ohne technisches Fachwissen trainieren und sie werden lokal ausgeführt. Das Beste daran ist, dass die Modelle kontinuierlich mit Daten aus der Fabrik aktualisiert werden können, was die Genauigkeit erhöht, wenn Sie neue Anwendungsfälle entdecken.
Visual Inspection AI wird bei jedem Schritt optimiert. Die Einrichtung ist einfach und der ROI lässt sich schnell erkennen. Mit bis zu 300-mal weniger beschrifteten Bildern zum Trainieren von Hochleistungsinspektionsmodellen als bei ML-Plattformen für allgemeine Zwecke liefert es nachweislich eine bis zu zehnmal höhere Genauigkeit. Sie können Modelle auch ohne technisches Fachwissen trainieren und sie werden lokal ausgeführt. Das Beste daran ist, dass die Modelle kontinuierlich mit Daten aus der Fabrik aktualisiert werden können, was die Genauigkeit erhöht, wenn Sie neue Anwendungsfälle entdecken.
Preise
| Preisgestaltung von Vision AI | Jedes Vision-Angebot umfasst eine Reihe von Features oder Prozessoren zu unterschiedlichen Preisen. Weitere Informationen finden Sie auf der Seite mit den detaillierten Preisen. | ||
|---|---|---|---|
| Kostenlose Stufe | Product/Service | Ermäßigte Preise | Details |
Vision API | Erste 1.000 Einheiten pro Monat kostenlos | > 5.000.001 Einheiten pro Monat | |
Document AI | – Die Preise richten sich nach dem Prozessor. | 5.000.001+ Seiten pro Monat für Enterprise Document OCR-Prozessor | |
Video Intelligence API | Die ersten 1.000 Minuten pro Monat sind kostenlos. | 100.000+ Minuten pro Monat | |
Vertex AI Vision | – Die Preise sind funktionsspezifisch. |
| |
Imagen – multimodale Einbettungen |
|
| 0,0001 $ pro Bildeingabe |
Imagen – visuelle Untertitel |
|
| 0,0015 $ pro Bild |
Gemini Pro Vision | |||
Preisgestaltung von Vision AI
Jedes Vision-Angebot umfasst eine Reihe von Features oder Prozessoren zu unterschiedlichen Preisen. Weitere Informationen finden Sie auf der Seite mit den detaillierten Preisen.
Vision API
Erste 1.000 Einheiten
pro Monat kostenlos
> 5.000.001 Einheiten
pro Monat
Document AI
–
Die Preise richten sich nach dem Prozessor.
5.000.001+ Seiten
pro Monat für Enterprise Document OCR-Prozessor
Video Intelligence API
Die ersten 1.000 Minuten
pro Monat sind kostenlos.
100.000+ Minuten
pro Monat
Vertex AI Vision
–
Die Preise sind funktionsspezifisch.
Imagen – multimodale Einbettungen
0,0001 $
pro Bildeingabe
Imagen – visuelle Untertitel
0,0015 $
pro Bild