Memahami dokumen

Gemini dapat merespons perintah tentang dokumen. Anda dapat menambahkan dokumen ke permintaan Gemini untuk melakukan tugas yang melibatkan pemahaman isi dokumen yang disertakan.

Pemahaman dokumen adalah salah satu input multimodal Gemini yang menggabungkan teks dengan file media.

Untuk mengetahui informasi selengkapnya tentang pemahaman dokumen dengan Gemini dan petunjuk langkah demi langkah untuk mengirim permintaan API, lihat Mengirim perintah multimodal.

Spesifikasi untuk perintah dengan dokumen

Anda dapat menambahkan file dokumen ke permintaan Anda kepada Gemini. Batas dokumen maksimum berikut berlaku untuk permintaan Gemini:

  • Jumlah file maksimum per permintaan: 100
  • Halaman maksimum per file: 100
  • Ukuran maksimum per file: 50 MB

Berikut beberapa contoh maksimum yang dapat Anda berikan dalam satu permintaan menggunakan Gemini (yang dapat memproses total 100 halaman dalam satu permintaan):

  • 100 file satu halaman
  • sepuluh file 10 halaman
  • satu file 100 halaman

Dokumen harus dalam salah satu jenis MIME yang didukung berikut:

  • CSS: text/css
  • CSV: text/csv
  • HTML: text/html
  • JS: text/javascript atau application/x-javascript
  • MD: text/md
  • PDF: application/pdf
  • PY: text/x-python atau application/x-python
  • RTF: text/rtf
  • TXT: text/plain
  • XML: text/xml

Gemini menerapkan aturan berikut pada dokumen:

  • PDF diperlakukan sebagai gambar, sehingga satu halaman PDF diperlakukan sebagai satu gambar. Jumlah halaman yang diizinkan dalam perintah dibatasi hingga jumlah gambar yang dapat didukung model.
  • Setiap halaman PDF di-tokenisasi dengan cara yang sama seperti gambar.
  • Dokumen teks biasa di-tokenisasi sebagai teks.
  • Jika perintah Anda berisi satu PDF, tempatkan PDF sebelum perintah teks dalam permintaan Anda.
  • Jika Anda memiliki dokumen yang panjang, sebaiknya bagi dokumen tersebut menjadi beberapa PDF untuk memprosesnya.

Anda dapat menggunakan endpoint Chat Completions di REST API dan menggunakan klien HTTP. Anda dapat memberikan dokumen sebagai data inline ke permintaan perintah sebagai file berenkode base64 atau mengupload file dokumen ke bucket penyimpanan sebelum membuat permintaan perintah.

Pelajari lebih lanjut praktik terbaik dan batasan untuk dokumen di Google Cloud dokumentasi.

Untuk mempelajari lebih lanjut OpenAI dan endpoint Chat Completions yang diterapkan Gemini dalam lingkungan air-gapped Google Distributed Cloud (GDC), lihat https://platform.openai.com/docs/api-reference/chat.

Memahami dokumen dari perintah

Contoh berikut menunjukkan permintaan Gemini Chat Completions API untuk membuat teks dari input dokumen menggunakan curl.

Mengirim permintaan data inline

Berikan dokumen sebagai data inline ke permintaan perintah dari file berenkode base64. Permintaan API berisi kolom input_document untuk dokumen yang dienkode dengan base64. Contoh berikut menunjukkan cara mengirim permintaan dokumen berenkode base64:

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d '{
      "model_id": "MODEL_ID",
      "messages": [
        {
          "role": "user",
          "content": [
            {
              "type": "input_document",
              "input_document": {
                "data": BASE64_DATA,
                # Valid formats are css, csv, html, js, md, pdf, py, rtf, txt, or xml
                "format": "pdf"
              }
            }
          ]
        }
      ],
    }'

Ganti kode berikut:

  • ENDPOINT: endpoint API yang Anda gunakan untuk organisasi Anda.
  • PROJECT: project ID Anda.
  • MODEL_ID: ID endpoint model yang ingin Anda gunakan untuk membuat respons.
  • BASE64_DATA: data file dokumen yang dienkode base64. Data berenkode Base64 harus diawali dengan skema URI data, RFC 2397. Oleh karena itu, format untuk kolom data untuk data yang dienkode base64 adalah, misalnya, "data": f"data:application/pdf;base64,{base64_document}".

Mengirim URL dokumen dalam permintaan

Upload file dokumen ke bucket penyimpanan sebelum membuat permintaan perintah. Permintaan API berisi kolom document_url untuk file dokumen di bucket penyimpanan. Contoh berikut menunjukkan cara mengirim permintaan URL dokumen:

curl \
  -X POST "https://ENDPOINT:443/v1/projects/PROJECT/locations/PROJECT/chat/completions" \
  -H "Content-Type: application/json; charset=utf-8" \
  -H "Authorization: Bearer $(gdcloud auth print-identity-token)" \
  -d '{
      "model_id": "MODEL_ID",
      "messages": [
        {
          "role": "user",
          "content": [
            {
              "type": "document_url",
              "document_url": {
                "url": "DOC_URL",
              }
            }
          ]
        }
      ],
    }'

Ganti kode berikut:

  • ENDPOINT: endpoint API yang Anda gunakan untuk organisasi Anda.
  • PROJECT: project ID Anda.
  • MODEL_ID: ID endpoint model yang ingin Anda gunakan untuk membuat respons.
  • DOC_URL: jalur ke URL dokumen di bucket penyimpanan. URL dokumen harus merujuk ke file dokumen yang disimpan di bucket penyimpanan GDC. Untuk mengetahui informasi selengkapnya, lihat Menyimpan data.

Langkah berikutnya