Übersicht über multimodale Modelle


  • Miniaturansicht für Gemini ausprobieren
    Gemini API testen

    Nachdem Sie in Google Cloud eingerichtet sind, können Sie einige multimodale Eingabeaufforderungen in Vertex AI Studio oder in einer Notebook-Anleitung mithilfe des Python SDK oder der REST API ausprobieren.

  • Miniaturansicht: Gemini API-Referenz
    Referenz zur Vertex AI Gemini API

    Weitere Informationen zu den Endpunkten, Parametern und Rückgabewerten der Vertex AI Gemini APIs.

  • Miniaturansicht für multimodale Eingabeaufforderungen für Gemini
    Multimodales Prompt-Design

    Lernen Sie Best Practices zum Entwerfen multimodaler Prompts kennen und sehen Sie sich Beispiel-Prompts an.


Multimodale Modelle

Eingabeaufforderung Antwort

Gib mir ein Rezept für diese Kekse.


Cookies
**ZUTATEN**
– 1 Tasse (2 Stück) weiche Butter
- 3/4 Tasse raffinierter Zucker
- 3/4 Tasse brauner Zucker
– 1 Teelöffel Vanillemark
– 2 große Eier
– 2 1/4 Tassen Mehl
- 1 Teelöffel Backpulver
- 1 Teelöffel Salz
...

Ein multimodales Modell ist ein Modell, das Informationen aus mehreren Modalitäten verarbeiten kann, einschließlich Bildern, Videos und Text. Sie können dem Modell zum Beispiel ein Foto eines Tellers mit Keksen schicken und es bitten, Ihnen ein Rezept für diese Kekse zu geben.

Gemini-Modelle

Die folgenden Gemini-Modelle sind verfügbar:

  • Gemini 1.5 Pro: (Vorschau) Kann multimodal sein (Text, Bilder, Audio, PDFs, Code, Videos) und in großem Maßstab skaliert werden für Aufgabenbereich mit bis zu 1 Mio. Eingabetokens.
  • Gemini 1.0 Pro wurde für Natural Language-Aufgaben, Text- und Code-Chats in mehreren Schritten und die Codegenerierung entwickelt.
  • Gemini 1.0 Pro Vision: Unterstützt multimodale Prompts. Sie können Text, Bilder und Videos in Ihre Anfragen aufnehmen und Text- oder Codeantworten abrufen.

Anwendungsfälle für Gemini 1.5 Pro

Gemini 1.5 Pro (Vorschau) unterstützt die Textgenerierung über einen Prompt, der eine Modalität oder eine Kombination der folgenden Modalitäten in einem Prompt enthält: Text, Code, PDFs , Bilder, Audio, Video. Zu den Anwendungsfällen gehören unter anderem:

Anwendungsfall Beschreibung
Zusammenfassung Erstellen Sie eine kürzere Version eines Dokuments, die die entsprechenden Informationen aus dem Originaltext enthält. Sie könnten zum Beispiel ein Kapitel aus einem Lehrbuch zusammenfassen wollen. Alternativ können Sie eine prägnante Produktbeschreibung aus einem langen Absatz erstellen, die das Produkt detailliert beschreibt.
Suche nach visuellen Informationen Nutzen Sie externes Wissen in Kombination mit Informationen, die aus dem Eingabebild oder Video extrahiert wurden, um Fragen zu beantworten.
Objekterkennung Beantworten Sie Fragen zur detaillierten Identifizierung von Objekten in Bildern und Videos.
Verständnis digitaler Inhalte Beantworten Sie Fragen und extrahieren Sie Informationen aus visuellen Inhalten wie Infografiken, Diagrammen, Abbildungen, Tabellen und Webseiten.
Generierung strukturierter Inhalte Generieren Sie Antworten anhand multimodaler Eingaben in Formaten wie HTML und JSON.
Untertitel und Beschreibung Generieren von Beschreibungen von Bildern und Videos mit unterschiedlichen Detailstufen.
Videos im Langformat Sie können lange Inhalte mit bis zu 1 Million Tokens für Text, Code, Bilder, Video und Audio verarbeiten.
Logisches Denken Neue Informationen durch Zusammensetzung ohne Speicherung oder Abruf ableiten
Audio Sprachdateien für Zusammenfassungen, Transkriptionen und Fragen und Antworten analysieren
Audio- und Videoeinstellungen. Fasst eine Videodatei mit Audio zusammen und gibt Kapitel mit Zeitstempeln zurück.
Multimodale Verarbeitung Mehrere Arten von Eingabemedien gleichzeitig verarbeiten, z. B. Video- und Audioeingabe

Anwendungsfälle für Gemini 1.0 Pro

Gemini 1.0 Pro unterstützt die Text- und Codegenerierung über einen Text-Prompt. Zu den Anwendungsfällen gehören unter anderem:

Anwendungsfall Beschreibung
Zusammenfassung Erstellen Sie eine kürzere Version eines Dokuments, die die entsprechenden Informationen aus dem Originaltext enthält. Sie könnten zum Beispiel ein Kapitel aus einem Lehrbuch zusammenfassen wollen. Alternativ können Sie eine prägnante Produktbeschreibung aus einem langen Absatz erstellen, die das Produkt detailliert beschreibt.
Question Answering Geben Sie Antworten auf Fragen im Text ein. Beispielsweise können Sie das Erstellen eines Dokuments mit häufig gestellten Fragen (FAQ) aus dem Inhalt der Wissensdatenbank automatisieren.
Verständnis digitaler Inhalte Weisen Sie dem bereitgestellten Text ein Label zu. Ein Label könnte beispielsweise auf Text angewendet werden und beschreiben, wie grammatikalisch korrekt er ist.
Klassifikation Generieren von Antworten in Formaten wie HTML und JSON, basierend auf der bereitgestellten Anleitung für die Prompt-Erstellung.
Informationssuche Weltwissen mit Informationen kombinieren, die aus Bildern und Videos extrahiert wurden.
Objekterkennung Beantworten Sie Fragen zur detaillierten Identifizierung der Objekte in Bildern und Videos.
Sentimentanalyse Dies ist eine Form der Klassifizierung, die die Stimmung des Texts identifiziert. Die Stimmung wird in ein Label umgewandelt, das auf den Text angewendet wird. Die Stimmung eines Textes kann z. B. positiv oder negativ sein, oder Gefühle wie Ärger oder Freude zeigen.
Entitätsextraktion Erzeugen Sie Texte, indem Sie eine Reihe von Anforderungen und Hintergrund angeben. Sie können beispielsweise eine E-Mail in einem bestimmten Kontext erstellen und dabei einen bestimmten Ton verwenden.
Codegenerierung Code anhand einer Beschreibung generieren. Beispielsweise können Sie das Modell anweisen, eine Funktion zu schreiben, die prüft, ob ein Jahr ein Schaltjahr ist.

Anwendungsfälle für Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision unterstützt die Textgenerierung mit Text, Bildern und Videos als Eingabe. Zu den Anwendungsfällen gehören unter anderem:

Anwendungsfall Beschreibung
Informationssuche Weltwissen mit Informationen kombinieren, die aus Bildern und Videos extrahiert wurden.
Objekterkennung Beantworten Sie Fragen zur detaillierten Identifizierung der Objekte in Bildern und Videos.
Verständnis digitaler Inhalte Beantworten Sie Fragen, indem Sie Informationen aus Inhalten wie Infografiken, Diagrammen, Abbildungen, Tabellen und Webseiten extrahieren.
Generierung strukturierter Inhalte Generieren von Antworten in Formaten wie HTML und JSON, basierend auf der bereitgestellten Anleitung für die Prompt-Erstellung.
Untertitel / Beschreibung Generieren von Beschreibungen von Bildern und Videos mit unterschiedlichen Detailstufen.
Extrapolation Überlegen, was in einem Bild nicht zu sehen ist oder was vor oder nach einem Video passiert.
Objekterkennung in Fotos Erkennen Sie ein Objekt in einem Bild und geben Sie eine Textbeschreibung des Objekts zurück.
Informationen zu Artikeln in einem Bild zurückgeben Verwenden Sie ein Bild, das mehrere Lebensmittel enthält. Gemini 1.0 Pro Vision kann Ihnen eine Schätzung des Betrags liefern, den Sie dafür zahlen sollten.
Bildschirme und Oberflächen verstehen Extrahieren Sie Informationen aus Appliance-Bildschirmen, Benutzeroberflächen und Layouts. Sie können beispielsweise ein Bild einer Appliance mit Gemini 1.0 Pro Vision verwenden, um eine Anleitung zur Verwendung der Appliance zu erhalten.
Technische Diagramme verstehen ER-Diagramme entschlüsseln, Beziehungen zwischen Tabellen verstehen und Anforderungen für die Optimierung in einer bestimmten Umgebung wie BigQuery ermitteln.
Empfehlung auf Basis mehrerer Bilder erstellen Anhand von Bildern einer Augenbrille können Sie eine Empfehlung dazu erhalten, welche der Modelle am besten zu Ihrem Gesicht passt.
Videobeschreibung generieren Erkennen, was in einem Video gezeigt wird. Beispiel: Ein Video für ein Ferienziel zur Verfügung stellen, um eine Beschreibung des Reiseziels, die fünf wichtigsten Aktivitäten dort und Vorschläge für die Reise zu erhalten.

Weitere Informationen zum Entwerfen von Prompts für verschiedene Verwendungen finden Sie auf den folgenden Seiten:

Siehe auch Modellstärken und Einschränkungen

Programmiersprachen-SDKs

Die Vertex AI Gemini API unterstützt die folgenden SDKs:

Python

from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")

response = model.generate_content(["What is this?", img])

Node.js

// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});

const result = await model.generateContent([
  "What is this?",
  {inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);

Java

public static void main(String[] args) throws Exception {
  try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
    GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
  List<Content> contents = new ArrayList<>();
  contents.add(ContentMaker
                .fromMultiModalData(
                    "What is this?",
                    PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
  GenerateContentResponse response = model.generateContent(contents);
    }
  }
}

Einfach loslegen (Go)

model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)

Was ist der Unterschied zur Google AI Gemini API?

Mit der Vertex AI Gemini API und der Google AI Gemini API können Sie die Funktionen von Bigtable-Modellen in Ihre Anwendungen einbinden. Welche Plattform für Sie am besten geeignet ist, hängt von Ihren Zielen ab.

Die Vertex AI Gemini API wurde für Entwickler und Unternehmen für die Verwendung in skalierten Bereitstellungen entwickelt. Es bietet Features wie Unternehmenssicherheit, Datenstandort, Leistung und technischen Support. Wenn Sie bereits Google Cloud-Kunde sind oder mittelgroße bis große Anwendungen bereitstellen, sind Sie hier genau richtig.

Wenn Sie ein Hobbyist, ein Student oder ein Entwickler sind, der mit Google Cloud noch nicht vertraut ist, verwenden Sie die Google AI Gemini API. Diese eignet sich für Experimente, Prototyping und kleine Bereitstellungen. Wenn Sie nach einer Möglichkeit suchen, Gemini direkt über Ihre mobilen und Web-Apps zu verwenden, finden Sie weitere Informationen in den Google AI SDKs für Android, Swift und Web.

Vertex AI Gemini API-Dokumentation

Wählen Sie eines der folgenden Themen aus, um mehr über die Vertex AI Gemini API zu erfahren.

Erste Schritte mit der Vertex AI Gemini API

  • Miniaturansicht: In Cloud einrichten
    In Google Cloud einrichten

    Wenn Sie neu bei Google Cloud sind, folgen Sie der Einrichtungsschritte auf dieser Seite, um schnell loszulegen.

  • Miniaturansicht: Gemini Python SDK
    Python SDK-Klassen für Gemini API

    Informationen zu den vom Python SDK für die Vertex AI Gemini API bereitgestellten Klassen, einschließlich Attributen, Methoden und Nutzungsbeispielen.

  • Miniaturansicht: Python SDK-Referenz
    Referenz zum Python SDK

    Vollständige Referenz zu generativer KI für das Vertex AI SDK für Python


Zur Vertex AI Gemini API migrieren


Informationen zur Verwendung der wichtigsten Funktionen

  • Miniaturansicht für multimodale Eingabeaufforderungen senden
    Multimodale Prompt-Anfragen senden

    Erfahren Sie, wie Sie multimodale Prompt-Anfragen mit der Cloud Console, Python SDK oder der REST API senden.

  • Miniaturansicht für Chat-Prompts senden
    Anfragen für Chat-Prompts senden

    Erfahren Sie, wie Sie Single-turn- und Multi-turn-Chat-Prompts mit der Cloud Console, dem Python SDK oder der REST API senden.

  • Miniaturansicht für Funktionsaufrufe
    Funktionsaufrufe

    Erfahren Sie, wie Sie das Modell abrufen, um JSON zum Aufrufen externer Funktionen auszugeben.