Gemini kann auf Prompts zu Dokumenten reagieren. Sie können Gemini-Anfragen Dokumente hinzufügen, um Aufgaben auszuführen, bei denen die Inhalte der enthaltenen Dokumente berücksichtigt werden müssen.
Die Dokumentanalyse ist eine der multimodalen Eingaben von Gemini, bei der Text mit Mediendateien kombiniert wird.
Weitere Informationen zum Dokumentverständnis mit Gemini und eine Schritt-für-Schritt-Anleitung zum Senden von API-Anfragen finden Sie unter Multimodalen Prompt senden.
Spezifikationen für Prompts mit Dokumenten
Sie können Ihrer Anfrage an Gemini Dokumentdateien hinzufügen. Für Gemini-Anfragen gelten die folgenden maximalen Dokumentlimits:
- Maximale Anzahl von Dateien pro Anfrage: 100
- Maximale Anzahl von Seiten pro Datei: 100
- Maximale Größe pro Datei: 50 MB
Hier sind einige Beispiele für Höchstwerte, die Sie in einer einzelnen Anfrage mit Gemini angeben können (Gemini kann insgesamt 100 Seiten in einer Anfrage verarbeiten):
- 100 Dateien mit einer Seite
- zehn Dateien mit jeweils 10 Seiten
- eine 100-seitige Datei
Dokumente müssen einen der folgenden unterstützten MIME-Typen haben:
- Preisvergleichsportal:
text/css - CSV:
text/csv - HTML:
text/html - JS:
text/javascriptoderapplication/x-javascript - MD:
text/md - PDF:
application/pdf - PY:
text/x-pythonoderapplication/x-python - RTF:
text/rtf - TXT:
text/plain - XML:
text/xml
Für Dokumente gelten in Gemini die folgenden Regeln:
- PDFs werden als Bilder behandelt, sodass eine einzelne Seite einer PDF-Datei als ein Bild behandelt wird. Die Anzahl der Seiten in einem Prompt ist auf die Anzahl der Bilder beschränkt, die das Modell unterstützen kann.
- Jede Seite einer PDF-Datei wird auf die gleiche Weise wie ein Bild tokenisiert.
- Nur-Text-Dokumente werden als Text tokenisiert.
- Wenn Ihr Prompt eine einzelne PDF-Datei enthält, platzieren Sie die PDF-Datei in Ihrer Anfrage vor dem Text-Prompt.
- Wenn Sie ein langes Dokument haben, sollten Sie es in mehrere PDFs aufteilen, um es zu verarbeiten.
Sie können den Chat Completions-Endpunkt in der REST API und einen HTTP-Client verwenden. Sie können das Dokument als Inline-Daten für die Prompts-Anfrage als base64-codierte Datei bereitstellen oder die Dokumentdatei hochladen, bevor Sie die Prompts-Anfrage stellen.
Weitere Informationen zu Best Practices und Einschränkungen für Dokumente finden Sie in der Google Cloud -Dokumentation.
Weitere Informationen zu OpenAI und dem Chat Completions-Endpunkt, den Gemini in Google Distributed Cloud (GDC) Air-Gapped implementiert, finden Sie unter https://platform.openai.com/docs/api-reference/chat.
Dokumente anhand eines Prompts verstehen
Die folgenden Beispiele zeigen eine Gemini Chat Completions API-Anfrage zum Generieren von Text aus Dokumenteingaben mit curl.
Inline-Datenanfragen senden
Stellen Sie Dokumente als Inline-Daten für die Prompt-Anfrage aus Base64-codierten Dateien bereit. Die API-Anfrage enthält das Feld input_document für Base64-codierte Dokumente. Im folgenden Beispiel wird gezeigt, wie base64-codierte Dokumentanfragen gesendet werden:
curl \
-X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
-H "Content-Type: application/json; charset=utf-8" \
-H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
-d '{
"model_id": "MODEL_ID",
"messages": [
{
"role": "user",
"content": [
{
"type": "input_document",
"input_document": {
"data": BASE64_DATA,
# Valid formats are css, csv, html, js, md, pdf, py, rtf, txt, or xml
"format": "pdf"
}
}
]
}
],
}'
Ersetzen Sie Folgendes:
ENDPOINT: Der API-Endpunkt, den Sie für Ihre Organisation verwenden.PROJECT: Ihre Projekt-ID.MODEL_ID: Die Endpunkt-ID des Modells, mit dem Sie die Antwort generieren möchten.BASE64_DATA: Die base64-codierten Daten der Dokumentdatei. Base64-codierte Daten müssen mit einem Daten-URI-Schema gemäß RFC 2397 beginnen. Das Format für das Felddatafür base64-codierte Daten ist beispielsweise"data": f"data:application/pdf;base64,{base64_document}".
Dokument-URLs in der Anfrage senden
Laden Sie die Dokumentdatei in einen Speicher-Bucket hoch, bevor Sie die Prompt-Anfrage stellen. Die API-Anfrage enthält das Feld document_url für Dokumentdateien in Speicher-Buckets.
Im folgenden Beispiel wird gezeigt, wie Dokument-URL-Anfragen gesendet werden:
curl \
-X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
-H "Content-Type: application/json; charset=utf-8" \
-H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
-d '{
"model_id": "MODEL_ID",
"messages": [
{
"role": "user",
"content": [
{
"type": "document_url",
"document_url": {
"url": "DOC_URL",
}
}
]
}
],
}'
Ersetzen Sie Folgendes:
ENDPOINT: Der API-Endpunkt, den Sie für Ihre Organisation verwenden.PROJECT: Ihre Projekt-ID.MODEL_ID: Die Endpunkt-ID des Modells, mit dem Sie die Antwort generieren möchten.DOC_URL: Der Pfad zu einer Dokument-URL in einem Speicher-Bucket. Dokument-URLs müssen auf Dokumentdateien verweisen, die in einem GDC-Speicher-Bucket gespeichert sind. Weitere Informationen finden Sie unter Daten speichern.