-
Gemini API testen
Nachdem Sie in Google Cloud eingerichtet sind, können Sie einige multimodale Eingabeaufforderungen in Vertex AI Studio oder in einer Notebook-Anleitung mithilfe des Python SDK oder der REST API ausprobieren.
-
Referenz zur Vertex AI Gemini API
Weitere Informationen zu den Endpunkten, Parametern und Rückgabewerten der Vertex AI Gemini APIs.
-
Multimodales Prompt-Design
Lernen Sie Best Practices zum Entwerfen multimodaler Prompts kennen und sehen Sie sich Beispiel-Prompts an.
Multimodale Modelle
Eingabeaufforderung | Antwort |
Gib mir ein Rezept für diese Kekse. |
**ZUTATEN** – 1 Tasse (2 Stück) weiche Butter - 3/4 Tasse raffinierter Zucker - 3/4 Tasse brauner Zucker – 1 Teelöffel Vanillemark – 2 große Eier – 2 1/4 Tassen Mehl - 1 Teelöffel Backpulver - 1 Teelöffel Salz ... |
Ein multimodales Modell ist ein Modell, das Informationen aus mehreren Modalitäten verarbeiten kann, einschließlich Bildern, Videos und Text. Sie können dem Modell zum Beispiel ein Foto eines Tellers mit Keksen schicken und es bitten, Ihnen ein Rezept für diese Kekse zu geben.
Gemini-Modelle
Die folgenden Gemini-Modelle sind verfügbar:
- Gemini 1.5 Pro: (Vorschau) Kann multimodal sein (Text, Bilder, Audio, PDFs, Code, Videos) und in großem Maßstab skaliert werden für Aufgabenbereich mit bis zu 1 Mio. Eingabetokens.
- Gemini 1.0 Pro wurde für Natural Language-Aufgaben, Text- und Code-Chats in mehreren Schritten und die Codegenerierung entwickelt.
- Gemini 1.0 Pro Vision: Unterstützt multimodale Prompts. Sie können Text, Bilder und Videos in Ihre Anfragen aufnehmen und Text- oder Codeantworten abrufen.
Anwendungsfälle für Gemini 1.5 Pro
Gemini 1.5 Pro (Vorschau) unterstützt die Textgenerierung über einen Prompt, der eine Modalität oder eine Kombination der folgenden Modalitäten in einem Prompt enthält: Text, Code, PDFs , Bilder, Audio, Video. Zu den Anwendungsfällen gehören unter anderem:
Anwendungsfall | Beschreibung |
---|---|
Zusammenfassung | Erstellen Sie eine kürzere Version eines Dokuments, die die entsprechenden Informationen aus dem Originaltext enthält. Sie könnten zum Beispiel ein Kapitel aus einem Lehrbuch zusammenfassen wollen. Alternativ können Sie eine prägnante Produktbeschreibung aus einem langen Absatz erstellen, die das Produkt detailliert beschreibt. |
Suche nach visuellen Informationen | Nutzen Sie externes Wissen in Kombination mit Informationen, die aus dem Eingabebild oder Video extrahiert wurden, um Fragen zu beantworten. |
Objekterkennung | Beantworten Sie Fragen zur detaillierten Identifizierung von Objekten in Bildern und Videos. |
Verständnis digitaler Inhalte | Beantworten Sie Fragen und extrahieren Sie Informationen aus visuellen Inhalten wie Infografiken, Diagrammen, Abbildungen, Tabellen und Webseiten. |
Generierung strukturierter Inhalte | Generieren Sie Antworten anhand multimodaler Eingaben in Formaten wie HTML und JSON. |
Untertitel und Beschreibung | Generieren von Beschreibungen von Bildern und Videos mit unterschiedlichen Detailstufen. |
Videos im Langformat | Sie können lange Inhalte mit bis zu 1 Million Tokens für Text, Code, Bilder, Video und Audio verarbeiten. |
Logisches Denken | Neue Informationen durch Zusammensetzung ohne Speicherung oder Abruf ableiten |
Audio | Sprachdateien für Zusammenfassungen, Transkriptionen und Fragen und Antworten analysieren |
Audio- und Videoeinstellungen. | Fasst eine Videodatei mit Audio zusammen und gibt Kapitel mit Zeitstempeln zurück. |
Multimodale Verarbeitung | Mehrere Arten von Eingabemedien gleichzeitig verarbeiten, z. B. Video- und Audioeingabe |
Anwendungsfälle für Gemini 1.0 Pro
Gemini 1.0 Pro unterstützt die Text- und Codegenerierung über einen Text-Prompt. Zu den Anwendungsfällen gehören unter anderem:
Anwendungsfall | Beschreibung |
---|---|
Zusammenfassung | Erstellen Sie eine kürzere Version eines Dokuments, die die entsprechenden Informationen aus dem Originaltext enthält. Sie könnten zum Beispiel ein Kapitel aus einem Lehrbuch zusammenfassen wollen. Alternativ können Sie eine prägnante Produktbeschreibung aus einem langen Absatz erstellen, die das Produkt detailliert beschreibt. |
Question Answering | Geben Sie Antworten auf Fragen im Text ein. Beispielsweise können Sie das Erstellen eines Dokuments mit häufig gestellten Fragen (FAQ) aus dem Inhalt der Wissensdatenbank automatisieren. |
Verständnis digitaler Inhalte | Weisen Sie dem bereitgestellten Text ein Label zu. Ein Label könnte beispielsweise auf Text angewendet werden und beschreiben, wie grammatikalisch korrekt er ist. |
Klassifikation | Generieren von Antworten in Formaten wie HTML und JSON, basierend auf der bereitgestellten Anleitung für die Prompt-Erstellung. |
Informationssuche | Weltwissen mit Informationen kombinieren, die aus Bildern und Videos extrahiert wurden. |
Objekterkennung | Beantworten Sie Fragen zur detaillierten Identifizierung der Objekte in Bildern und Videos. |
Sentimentanalyse | Dies ist eine Form der Klassifizierung, die die Stimmung des Texts identifiziert. Die Stimmung wird in ein Label umgewandelt, das auf den Text angewendet wird. Die Stimmung eines Textes kann z. B. positiv oder negativ sein, oder Gefühle wie Ärger oder Freude zeigen. |
Entitätsextraktion | Erzeugen Sie Texte, indem Sie eine Reihe von Anforderungen und Hintergrund angeben. Sie können beispielsweise eine E-Mail in einem bestimmten Kontext erstellen und dabei einen bestimmten Ton verwenden. |
Codegenerierung | Code anhand einer Beschreibung generieren. Beispielsweise können Sie das Modell anweisen, eine Funktion zu schreiben, die prüft, ob ein Jahr ein Schaltjahr ist. |
Anwendungsfälle für Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision unterstützt die Textgenerierung mit Text, Bildern und Videos als Eingabe. Zu den Anwendungsfällen gehören unter anderem:
Anwendungsfall | Beschreibung |
---|---|
Informationssuche | Weltwissen mit Informationen kombinieren, die aus Bildern und Videos extrahiert wurden. |
Objekterkennung | Beantworten Sie Fragen zur detaillierten Identifizierung der Objekte in Bildern und Videos. |
Verständnis digitaler Inhalte | Beantworten Sie Fragen, indem Sie Informationen aus Inhalten wie Infografiken, Diagrammen, Abbildungen, Tabellen und Webseiten extrahieren. |
Generierung strukturierter Inhalte | Generieren von Antworten in Formaten wie HTML und JSON, basierend auf der bereitgestellten Anleitung für die Prompt-Erstellung. |
Untertitel / Beschreibung | Generieren von Beschreibungen von Bildern und Videos mit unterschiedlichen Detailstufen. |
Extrapolation | Überlegen, was in einem Bild nicht zu sehen ist oder was vor oder nach einem Video passiert. |
Objekterkennung in Fotos | Erkennen Sie ein Objekt in einem Bild und geben Sie eine Textbeschreibung des Objekts zurück. |
Informationen zu Artikeln in einem Bild zurückgeben | Verwenden Sie ein Bild, das mehrere Lebensmittel enthält. Gemini 1.0 Pro Vision kann Ihnen eine Schätzung des Betrags liefern, den Sie dafür zahlen sollten. |
Bildschirme und Oberflächen verstehen | Extrahieren Sie Informationen aus Appliance-Bildschirmen, Benutzeroberflächen und Layouts. Sie können beispielsweise ein Bild einer Appliance mit Gemini 1.0 Pro Vision verwenden, um eine Anleitung zur Verwendung der Appliance zu erhalten. |
Technische Diagramme verstehen | ER-Diagramme entschlüsseln, Beziehungen zwischen Tabellen verstehen und Anforderungen für die Optimierung in einer bestimmten Umgebung wie BigQuery ermitteln. |
Empfehlung auf Basis mehrerer Bilder erstellen | Anhand von Bildern einer Augenbrille können Sie eine Empfehlung dazu erhalten, welche der Modelle am besten zu Ihrem Gesicht passt. |
Videobeschreibung generieren | Erkennen, was in einem Video gezeigt wird. Beispiel: Ein Video für ein Ferienziel zur Verfügung stellen, um eine Beschreibung des Reiseziels, die fünf wichtigsten Aktivitäten dort und Vorschläge für die Reise zu erhalten. |
Weitere Informationen zum Entwerfen von Prompts für verschiedene Verwendungen finden Sie auf den folgenden Seiten:
- Multimodale Prompts
- Text-Prompts
- Chat-Prompts
- Code-Chat-Aufforderungen
- Aufforderungen zur Codegenerierung
Siehe auch Modellstärken und Einschränkungen
Programmiersprachen-SDKs
Die Vertex AI Gemini API unterstützt die folgenden SDKs:
Python
from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")
response = model.generate_content(["What is this?", img])
Node.js
// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});
const result = await model.generateContent([
"What is this?",
{inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);
Java
public static void main(String[] args) throws Exception {
try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
List<Content> contents = new ArrayList<>();
contents.add(ContentMaker
.fromMultiModalData(
"What is this?",
PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
GenerateContentResponse response = model.generateContent(contents);
}
}
}
Einfach loslegen (Go)
model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)
Was ist der Unterschied zur Google AI Gemini API?
Mit der Vertex AI Gemini API und der Google AI Gemini API können Sie die Funktionen von Bigtable-Modellen in Ihre Anwendungen einbinden. Welche Plattform für Sie am besten geeignet ist, hängt von Ihren Zielen ab.
Die Vertex AI Gemini API wurde für Entwickler und Unternehmen für die Verwendung in skalierten Bereitstellungen entwickelt. Es bietet Features wie Unternehmenssicherheit, Datenstandort, Leistung und technischen Support. Wenn Sie bereits Google Cloud-Kunde sind oder mittelgroße bis große Anwendungen bereitstellen, sind Sie hier genau richtig.
Wenn Sie ein Hobbyist, ein Student oder ein Entwickler sind, der mit Google Cloud noch nicht vertraut ist, verwenden Sie die Google AI Gemini API. Diese eignet sich für Experimente, Prototyping und kleine Bereitstellungen. Wenn Sie nach einer Möglichkeit suchen, Gemini direkt über Ihre mobilen und Web-Apps zu verwenden, finden Sie weitere Informationen in den Google AI SDKs für Android, Swift und Web.
Vertex AI Gemini API-Dokumentation
Wählen Sie eines der folgenden Themen aus, um mehr über die Vertex AI Gemini API zu erfahren.
Erste Schritte mit der Vertex AI Gemini API
-
In Google Cloud einrichten
Wenn Sie neu bei Google Cloud sind, folgen Sie der Einrichtungsschritte auf dieser Seite, um schnell loszulegen.
-
Python SDK-Klassen für Gemini API
Informationen zu den vom Python SDK für die Vertex AI Gemini API bereitgestellten Klassen, einschließlich Attributen, Methoden und Nutzungsbeispielen.
-
Referenz zum Python SDK
Vollständige Referenz zu generativer KI für das Vertex AI SDK für Python
Zur Vertex AI Gemini API migrieren
-
Von Google AI zu Vertex AI migrieren
Hier erfahren Sie, wie Sie Ihren Python-Code von der Google AI Gemini API zur Vertex AI Gemini API migrieren.
-
Von der PaLM API zur Gemini API migrieren
Erfahren Sie, wie Sie Ihren Python-Code von der Vertex AI PaLM API zur Vertex AI Gemini API migrieren.
Informationen zur Verwendung der wichtigsten Funktionen
-
Multimodale Prompt-Anfragen senden
Erfahren Sie, wie Sie multimodale Prompt-Anfragen mit der Cloud Console, Python SDK oder der REST API senden.
-
Anfragen für Chat-Prompts senden
Erfahren Sie, wie Sie Single-turn- und Multi-turn-Chat-Prompts mit der Cloud Console, dem Python SDK oder der REST API senden.
-
Funktionsaufrufe
Erfahren Sie, wie Sie das Modell abrufen, um JSON zum Aufrufen externer Funktionen auszugeben.