Dokumente verstehen

Gemini kann auf Prompts zu Dokumenten reagieren. Sie können Gemini-Anfragen Dokumente hinzufügen, um Aufgaben auszuführen, bei denen die Inhalte der enthaltenen Dokumente berücksichtigt werden müssen.

Die Dokumentanalyse ist eine der multimodalen Eingaben von Gemini, bei der Text mit Mediendateien kombiniert wird.

Weitere Informationen zum Dokumentverständnis mit Gemini und eine Schritt-für-Schritt-Anleitung zum Senden von API-Anfragen finden Sie unter Multimodalen Prompt senden.

Spezifikationen für Prompts mit Dokumenten

Sie können Ihrer Anfrage an Gemini Dokumentdateien hinzufügen. Für Gemini-Anfragen gelten die folgenden maximalen Dokumentlimits:

Maximale Anzahl von Dateien pro Anfrage: 100
Maximale Anzahl von Seiten pro Datei: 100
Maximale Größe pro Datei: 50 MB

Hier sind einige Beispiele für Höchstwerte, die Sie in einer einzelnen Anfrage mit Gemini angeben können (Gemini kann insgesamt 100 Seiten in einer Anfrage verarbeiten):

100 Dateien mit einer Seite
zehn Dateien mit jeweils 10 Seiten
eine 100-seitige Datei

Dokumente müssen einen der folgenden unterstützten MIME-Typen haben:

Preisvergleichsportal: text/css
CSV: text/csv
HTML: text/html
JS: text/javascript oder application/x-javascript
MD: text/md
PDF: application/pdf
PY: text/x-python oder application/x-python
RTF: text/rtf
TXT: text/plain
XML: text/xml

Für Dokumente gelten in Gemini die folgenden Regeln:

PDFs werden als Bilder behandelt, sodass eine einzelne Seite einer PDF-Datei als ein Bild behandelt wird. Die Anzahl der Seiten in einem Prompt ist auf die Anzahl der Bilder beschränkt, die das Modell unterstützen kann.
Jede Seite einer PDF-Datei wird auf die gleiche Weise wie ein Bild tokenisiert.
Nur-Text-Dokumente werden als Text tokenisiert.
Wenn Ihr Prompt eine einzelne PDF-Datei enthält, platzieren Sie die PDF-Datei in Ihrer Anfrage vor dem Text-Prompt.
Wenn Sie ein langes Dokument haben, sollten Sie es in mehrere PDFs aufteilen, um es zu verarbeiten.

Sie können den Chat Completions-Endpunkt in der REST API und einen HTTP-Client verwenden. Sie können das Dokument als Inline-Daten für die Prompts-Anfrage als base64-codierte Datei bereitstellen oder die Dokumentdatei hochladen, bevor Sie die Prompts-Anfrage stellen.

Weitere Informationen zu Best Practices und Einschränkungen für Dokumente finden Sie in der Google Cloud -Dokumentation.

Weitere Informationen zu OpenAI und dem Chat Completions-Endpunkt, den Gemini in Google Distributed Cloud (GDC) Air-Gapped implementiert, finden Sie unter https://platform.openai.com/docs/api-reference/chat.

Dokumente anhand eines Prompts verstehen

Die folgenden Beispiele zeigen eine Gemini Chat Completions API-Anfrage zum Generieren von Text aus Dokumenteingaben mit curl.

Inline-Datenanfragen senden

Stellen Sie Dokumente als Inline-Daten für die Prompt-Anfrage aus Base64-codierten Dateien bereit. Die API-Anfrage enthält das Feld input_document für Base64-codierte Dokumente. Im folgenden Beispiel wird gezeigt, wie base64-codierte Dokumentanfragen gesendet werden:

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d '{
      "model_id": "MODEL_ID",
      "messages": [
        {
          "role": "user",
          "content": [
            {
              "type": "input_document",
              "input_document": {
                "data": BASE64_DATA,
                # Valid formats are css, csv, html, js, md, pdf, py, rtf, txt, or xml
                "format": "pdf"
              }
            }
          ]
        }
      ],
    }'

Ersetzen Sie Folgendes:

ENDPOINT: Der API-Endpunkt, den Sie für Ihre Organisation verwenden.
PROJECT: Ihre Projekt-ID.
MODEL_ID: Die Endpunkt-ID des Modells, mit dem Sie die Antwort generieren möchten.
BASE64_DATA: Die base64-codierten Daten der Dokumentdatei. Base64-codierte Daten müssen mit einem Daten-URI-Schema gemäß RFC 2397 beginnen. Das Format für das Feld data für base64-codierte Daten ist beispielsweise "data": f"data:application/pdf;base64,{base64_document}".

Dokument-URLs in der Anfrage senden

Laden Sie die Dokumentdatei in einen Speicher-Bucket hoch, bevor Sie die Prompt-Anfrage stellen. Die API-Anfrage enthält das Feld document_url für Dokumentdateien in Speicher-Buckets. Im folgenden Beispiel wird gezeigt, wie Dokument-URL-Anfragen gesendet werden:

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d '{
      "model_id": "MODEL_ID",
      "messages": [
        {
          "role": "user",
          "content": [
            {
              "type": "document_url",
              "document_url": {
                "url": "DOC_URL",
              }
            }
          ]
        }
      ],
    }'

Ersetzen Sie Folgendes:

ENDPOINT: Der API-Endpunkt, den Sie für Ihre Organisation verwenden.
PROJECT: Ihre Projekt-ID.
MODEL_ID: Die Endpunkt-ID des Modells, mit dem Sie die Antwort generieren möchten.
DOC_URL: Der Pfad zu einer Dokument-URL in einem Speicher-Bucket. Dokument-URLs müssen auf Dokumentdateien verweisen, die in einem GDC-Speicher-Bucket gespeichert sind. Weitere Informationen finden Sie unter Daten speichern.

Nächste Schritte

Multimodalen Prompt senden

Dokumente verstehen Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Spezifikationen für Prompts mit Dokumenten

Dokumente anhand eines Prompts verstehen

Inline-Datenanfragen senden

Dokument-URLs in der Anfrage senden

Nächste Schritte

Dokumente verstehen