Sie können Gemini Chat Completions API-Anfragen Bilder hinzufügen, um Aufgaben auszuführen, bei denen die Inhalte der enthaltenen Bilder berücksichtigt werden müssen. Die Bildanalyse ist eine der multimodalen Eingaben von Gemini, bei denen Text mit Mediendateien kombiniert wird.
Weitere Informationen zur Bildanalyse mit Gemini und eine Schritt-für-Schritt-Anleitung zum Senden von API-Anfragen finden Sie unter Multimodalen Prompt senden.
Spezifikationen für Prompts mit Bildern
Sie können Ihren Gemini-Anfragen einzelne oder mehrere Bilder hinzufügen. Die maximale Anzahl von Bildern pro Prompt, um die Leistung von Gemini-Modellen in Google Distributed Cloud (GDC) mit Air Gap zu gewährleisten, beträgt 100.
Es gibt keine bestimmte Beschränkung für die Anzahl der Pixel in einem Bild. Größere Bilder werden jedoch herunterskaliert und auf eine maximale Auflösung von 768 × 768 aufgefüllt, wobei ihr ursprüngliches Seitenverhältnis beibehalten wird. Jedes Bild entspricht 258 Tokens.
Bilder müssen einen der folgenden MIME-Typen für Bilddaten haben:
- HEIC:
image/heic - HEIF:
image/heif - JPG:
image/jpgoderimage/jpeg - PNG:
image/png - WEBP:
image/webp
Sie können den Chat Completions-Endpunkt in der REST API verwenden und entweder einen HTTP-Client oder die offiziellen SDKs von OpenAI für Python verwenden. Sie können das Bild als Inline-Daten für die Prompts-Anfrage als Base64-codierte Datei bereitstellen oder die Bilddatei vor der Prompts-Anfrage in einen Speicher-Bucket hochladen.
Weitere Informationen zu Best Practices und Einschränkungen für Bilder in der Google Cloud -Dokumentation
Weitere Informationen zu OpenAI und dem Chat Completions-Endpunkt, den Gemini in Google Distributed Cloud (GDC) Air-Gapped implementiert, finden Sie unter https://platform.openai.com/docs/api-reference/chat.
Bild anhand eines Prompts verstehen
In den folgenden Beispielen wird eine Gemini Chat Completions API-Anfrage zum Generieren von Text aus Text- und Bildeingaben mit den offiziellen SDKs von OpenAI für Python oder curl gezeigt.
Python
import openai
client = openai.OpenAI()
model_response = client.chat.completions.create(
model = "MODEL_ID",
messages = [
{
"role": "user",
"content": "What's in this image?"
},
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
# Image URL or base64-encoded data
"url": IMAGE_DATA,
}
}
]
}
]
)
print(model_response)
Ersetzen Sie Folgendes:
MODEL_ID: Die Endpunkt-ID des Modells, mit dem Sie die Antwort generieren möchten.IMAGE_DATA: Der Pfad zu einer Bild-URL in einem Bucket oder Ihre Base64-codierten Bilddaten. Berücksichtigen Sie je nach Ihren Daten die folgenden Aspekte:- Base64-codierte Daten müssen mit einem Daten-URI-Schema gemäß RFC 2397 beginnen.
Das Format für das Feld
urlfür base64-codierte Daten ist beispielsweise"url": f"data:image/jpeg;base64,{base64_image}". - Bild-URLs müssen auf Bilder verweisen, die in einem GDC-Speicher-Bucket gespeichert sind. Das Format für das Feld
urlfür Bild-URLs ist beispielsweise"url": "s3://path/to/bucket/image". Weitere Informationen finden Sie unter Daten speichern.
- Base64-codierte Daten müssen mit einem Daten-URI-Schema gemäß RFC 2397 beginnen.
Das Format für das Feld
curl
curl \
-X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
-H "Content-Type: application/json; charset=utf-8" \
-H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
-d '{
"model_id": "MODEL_ID",
"messages": [
{
"role": "user",
"content": "What's in this image?"
},
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
# Image URL or base64-encoded data
"url": IMAGE_DATA
}
}
]
}
],
"max_tokens": 300
}'
Ersetzen Sie Folgendes:
ENDPOINT: Der API-Endpunkt, den Sie für Ihre Organisation verwenden.PROJECT: Ihre Projekt-ID.MODEL_ID: Die Endpunkt-ID des Modells, mit dem Sie die Antwort generieren möchten.IMAGE_DATA: Der Pfad zu einer Bild-URL in einem Bucket oder Ihre Base64-codierten Bilddaten. Berücksichtigen Sie je nach Ihren Daten die folgenden Aspekte:- Base64-codierte Daten müssen mit einem Daten-URI-Schema gemäß RFC 2397 beginnen.
Das Format für das Feld
urlfür base64-codierte Daten ist beispielsweise"url": f"data:image/jpeg;base64,{base64_image}". - Bild-URLs müssen auf Bilder verweisen, die in einem GDC-Speicher-Bucket gespeichert sind. Das Format für das Feld
urlfür Bild-URLs ist beispielsweise"url": "s3://path/to/bucket/image". Weitere Informationen finden Sie unter Daten speichern.
- Base64-codierte Daten müssen mit einem Daten-URI-Schema gemäß RFC 2397 beginnen.
Das Format für das Feld