
您可以在 Gemini 请求中添加文档(PDF 和 TXT 文件),以执行涉及理解所含文档内容的任务。本页面介绍了如何使用 Google Cloud 控制台和 Vertex AI API 将 PDF 添加到 Vertex AI 中对 Gemini 的请求。



模型 文档模态详细信息 试用模型
Gemini 2.0 Flash
  • 每个请求的文件数量上限:3,000
  • 每个文件的页数上限:1,000
  • 每个文件的文件大小上限:50 MB
试用 Gemini 2.0 Flash
Gemini 2.0 Flash-Lite
  • 每个请求的文件数量上限:3,000
  • 每个文件的页数上限:1,000
  • 每个文件的文件大小上限:50 MB
试用 Gemini 2.0 Flash-Lite
Gemini 1.5 Flash
  • 每个请求的文件数量上限:3,000
  • 每个文件的页数上限:1,000
  • 每个文件的文件大小上限:50 MB
试用 Gemini 1.5 Flash
Gemini 1.5 Pro
  • 每个请求的文件数量上限:3,000
  • 每个文件的页数上限:1,000
  • 每个文件的文件大小上限:50 MB
试用 Gemini 1.5 Pro
Gemini 1.0 Pro Vision
  • 每个请求的文件数量上限:16
  • 每个提示的页数上限:16
  • 每个 PDF 文件的文件大小上限:50 MB
试用 Gemini 1.0 Pro Vision

如需查看 Gemini 模型支持的语言列表,请参阅 Google 模型的模型信息。如需详细了解如何设计多模态提示,请参阅设计多模态提示。如果您正在寻找一种直接在移动应用和 Web 应用中使用 Gemini 的方法,请参阅适用于 Android、Swift、Web 和 Flutter 应用的 Vertex AI in Firebase SDK


以下代码示例展示了如何在提示请求中添加 PDF 文件。此 PDF 文件示例适用于所有 Gemini 多模态模型。

了解如何安装或更新 Google Gen AI SDK for Python
如需了解详情,请参阅 Gen AI SDK for Python API 参考文档python-genai GitHub 代码库
设置环境变量以将 Gen AI SDK 与 Vertex AI 搭配使用:

# with appropriate values for your project.
export GOOGLE_CLOUD_LOCATION=us-central1

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
model_id = "gemini-2.0-flash-001"

prompt = """
You are a highly skilled document summarization specialist. Your task is to provide a concise executive summary of no more than 300 words. Please summarize the given document for a general audience.

pdf_file = Part.from_uri(

response = client.models.generate_content(
    contents=[pdf_file, prompt],

# Example response:
# Here's a summary of the Google DeepMind Gemini 1.5 report:
# This report introduces Gemini 1.5 Pro...

如需了解如何安装或更新 Python 版 Vertex AI SDK,请参阅安装 Python 版 Vertex AI SDK。如需了解详情,请参阅 Vertex AI SDK for Python API 参考文档


您可以选择模型是生成流式回答还是非流式回答。 对于流式回答,您将在生成每个响应的输出词元后立即收到响应。对于非流式回答,您将在生成所有输出词元后收到所有响应。

对于流式回答,请使用 generate_content 中的 stream 参数。

  response = model.generate_content(contents=[...], stream = True)

对于非流式回答,请移除该参数或将参数设置为 False


import vertexai

from vertexai.generative_models import GenerativeModel, Part

# TODO(developer): Update project_id and location
vertexai.init(project=PROJECT_ID, location="us-central1")

model = GenerativeModel("gemini-1.5-flash-002")

prompt = """
You are a very professional document summarization specialist.
Please summarize the given document.

pdf_file = Part.from_uri(
contents = [pdf_file, prompt]

response = model.generate_content(contents)
# Example response:
# Here's a summary of the provided text, which appears to be a research paper on the Gemini 1.5 Pro
# multimodal large language model:
# **Gemini 1.5 Pro: Key Advancements and Capabilities**
# The paper introduces Gemini 1.5 Pro, a highly compute-efficient multimodal model
# significantly advancing long-context capabilities
# ...

在尝试此示例之前,请按照《Vertex AI 快速入门》中的 Java 设置说明执行操作。如需了解详情,请参阅适用于 Gemini 的 Vertex AI Java SDK 参考文档

如需向 Vertex AI 进行身份验证,请设置应用默认凭据。如需了解详情,请参阅为本地开发环境设置 ADC


您可以选择模型是生成流式回答还是非流式回答。 对于流式回答,您将在生成每个响应的输出词元后立即收到响应。对于非流式回答,您会在生成所有输出词元之后收到所有回答。

对于流式回答,请使用 generateContentStream 方法。

  public ResponseStream<GenerateContentResponse> generateContentStream(Content content)

对于非流式回答,请使用 generateContent 方法。

  public GenerateContentResponse generateContent(Content content)


import com.google.cloud.vertexai.VertexAI;
import com.google.cloud.vertexai.api.GenerateContentResponse;
import com.google.cloud.vertexai.generativeai.ContentMaker;
import com.google.cloud.vertexai.generativeai.GenerativeModel;
import com.google.cloud.vertexai.generativeai.PartMaker;
import com.google.cloud.vertexai.generativeai.ResponseHandler;
import java.io.IOException;

public class PdfInput {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String projectId = "your-google-cloud-project-id";
    String location = "us-central1";
    String modelName = "gemini-1.5-flash-001";

    pdfInput(projectId, location, modelName);

  // Analyzes the given video input.
  public static String pdfInput(String projectId, String location, String modelName)
      throws IOException {
    // Initialize client that will be used to send requests. This client only needs
    // to be created once, and can be reused for multiple requests.
    try (VertexAI vertexAI = new VertexAI(projectId, location)) {
      String pdfUri = "gs://cloud-samples-data/generative-ai/pdf/2403.05530.pdf";

      GenerativeModel model = new GenerativeModel(modelName, vertexAI);
      GenerateContentResponse response = model.generateContent(
              "You are a very professional document summarization specialist.\n"
                  + "Please summarize the given document.",
              PartMaker.fromMimeTypeAndData("application/pdf", pdfUri)

      String output = ResponseHandler.getText(response);
      return output;

在尝试此示例之前,请按照《生成式 AI 快速入门:使用 Node.js SDK》中的 Node.js 设置说明执行操作。如需了解详情,请参阅适用于 Gemini 的 Node.js SDK 参考文档

如需向 Vertex AI 进行身份验证,请设置应用默认凭据。如需了解详情,请参阅为本地开发环境设置 ADC


您可以选择模型是生成流式回答还是非流式回答。 对于流式回答,您将在生成每个响应的输出词元后立即收到响应。对于非流式回答,您会在生成所有输出词元之后收到所有回答。

对于流式回答,请使用 generateContentStream 方法。

  const streamingResp = await generativeModel.generateContentStream(request);

对于非流式回答,请使用 generateContent 方法。

  const streamingResp = await generativeModel.generateContent(request);


const {VertexAI} = require('@google-cloud/vertexai');

 * TODO(developer): Update these variables before running the sample.
async function analyze_pdf(projectId = 'PROJECT_ID') {
  const vertexAI = new VertexAI({project: projectId, location: 'us-central1'});

  const generativeModel = vertexAI.getGenerativeModel({
    model: 'gemini-1.5-flash-001',

  const filePart = {
    fileData: {
      fileUri: 'gs://cloud-samples-data/generative-ai/pdf/2403.05530.pdf',
      mimeType: 'application/pdf',
  const textPart = {
    text: `
    You are a very professional document summarization specialist.
    Please summarize the given document.`,

  const request = {
    contents: [{role: 'user', parts: [filePart, textPart]}],

  const resp = await generativeModel.generateContent(request);
  const contentResponse = await resp.response;

在尝试此示例之前,请按照《Vertex AI 快速入门》中的 Go 设置说明执行操作。如需了解详情,请参阅适用于 Gemini 的 Vertex AI Go SDK 参考文档

如需向 Vertex AI 进行身份验证,请设置应用默认凭据。如需了解详情,请参阅为本地开发环境设置 ADC


您可以选择模型是生成流式回答还是非流式回答。 对于流式回答,您将在生成每个响应的输出词元后立即收到响应。对于非流式回答,您会在生成所有输出词元之后收到所有回答。

对于流式回答,请使用 GenerateContentStream 方法。

  iter := model.GenerateContentStream(ctx, genai.Text("Tell me a story about a lumberjack and his giant ox. Keep it very short."))

对于非流式回答,请使用 GenerateContent 方法。

  resp, err := model.GenerateContent(ctx, genai.Text("What is the average size of a swallow?"))


import (


// generateContentFromPDF generates a response into the provided io.Writer, based upon the PDF
func generateContentFromPDF(w io.Writer, projectID, location, modelName string) error {
	// location := "us-central1"
	// modelName := "gemini-1.5-flash-001"

	ctx := context.Background()

	client, err := genai.NewClient(ctx, projectID, location)
	if err != nil {
		return fmt.Errorf("unable to create client: %w", err)
	defer client.Close()

	model := client.GenerativeModel(modelName)

	part := genai.FileData{
		MIMEType: "application/pdf",
		FileURI:  "gs://cloud-samples-data/generative-ai/pdf/2403.05530.pdf",

	res, err := model.GenerateContent(ctx, part, genai.Text(`
			You are a very professional document summarization specialist.
    		Please summarize the given document.
	if err != nil {
		return fmt.Errorf("unable to generate contents: %w", err)

	if len(res.Candidates) == 0 ||
		len(res.Candidates[0].Content.Parts) == 0 {
		return errors.New("empty response from model")

	fmt.Fprintf(w, "generated response: %s\n", res.Candidates[0].Content.Parts[0])
	return nil

在尝试此示例之前,请按照《Vertex AI 快速入门》中的 C# 设置说明执行操作。如需了解详情,请参阅 Vertex AI C# 参考文档

如需向 Vertex AI 进行身份验证,请设置应用默认凭据。如需了解详情,请参阅为本地开发环境设置 ADC


您可以选择模型是生成流式回答还是非流式回答。 对于流式回答,您将在生成每个响应的输出词元后立即收到响应。对于非流式回答,您会在生成所有输出词元之后收到所有回答。

对于流式回答,请使用 StreamGenerateContent 方法。

  public virtual PredictionServiceClient.StreamGenerateContentStream StreamGenerateContent(GenerateContentRequest request)

对于非流式回答,请使用 GenerateContentAsync 方法。

  public virtual Task<GenerateContentResponse> GenerateContentAsync(GenerateContentRequest request)

如需详细了解服务器如何流式传输回答,请参阅流式传输 RPC


using Google.Cloud.AIPlatform.V1;
using System;
using System.Threading.Tasks;

public class PdfInput
    public async Task<string> SummarizePdf(
        string projectId = "your-project-id",
        string location = "us-central1",
        string publisher = "google",
        string model = "gemini-1.5-flash-001")

        var predictionServiceClient = new PredictionServiceClientBuilder
            Endpoint = $"{location}-aiplatform.googleapis.com"

        string prompt = @"You are a very professional document summarization specialist.
Please summarize the given document.";

        var generateContentRequest = new GenerateContentRequest
            Model = $"projects/{projectId}/locations/{location}/publishers/{publisher}/models/{model}",
            Contents =
                new Content
                    Role = "USER",
                    Parts =
                        new Part { Text = prompt },
                        new Part { FileData = new() { MimeType = "application/pdf", FileUri = "gs://cloud-samples-data/generative-ai/pdf/2403.05530.pdf" }}

        GenerateContentResponse response = await predictionServiceClient.GenerateContentAsync(generateContentRequest);

        string responseText = response.Candidates[0].Content.Parts[0].Text;

        return responseText;

设置您的环境后,您可以使用 REST 测试文本提示。以下示例会向发布方模型端点发送请求。


  • LOCATION:处理请求的区域。输入支持的区域。如需查看支持的区域的完整列表,请参阅可用位置
    • us-central1
    • us-west4
    • northamerica-northeast1
    • us-east4
    • us-west1
    • asia-northeast3
    • asia-southeast1
    • asia-northeast1
  • PROJECT_ID:您的项目 ID
  • FILE_URI:要包含在提示中的文件的 URI 或网址。可接受的值包括:
    • Cloud Storage 存储桶 URI:对象必须可公开读取,或者位于发送请求的同一 Google Cloud 项目中。 对于 gemini-1.5-progemini-1.5-flash,大小限制为 2 GB。对于 gemini-1.0-pro-vision,大小限制为 20 MB。
    • HTTP 网址:文件网址必须可公开读取。您可以为每个请求指定一个视频文件、一个音频文件和最多 10 个图片文件。音频文件、视频文件和文档的大小不得超过 15 MB。
    • YouTube 视频网址:YouTube 视频必须由您用于登录 Google Cloud 控制台的账号所拥有,或者是公开的。每个请求仅支持一个 YouTube 视频网址。

    指定 fileURI 时,您还必须指定文件的媒体类型 (mimeType)。 如果启用了 VPC Service Controls,则不支持为 fileURI 指定媒体文件网址。

    如果您在 Cloud Storage 中没有 PDF 文件,则可以使用以下公开提供的文件:gs://cloud-samples-data/generative-ai/pdf/2403.05530.pdf,MIME 类型为 application/pdf。如需查看此 PDF,请打开示例 PDF 文件

  • MIME_TYPE:在 datafileUri 字段中指定的文件的媒体类型。可接受的值包括:
    • application/pdf
    • audio/mpeg
    • audio/mp3
    • audio/wav
    • image/png
    • image/jpeg
    • image/webp
    • text/plain
    • video/mov
    • video/mpeg
    • video/mp4
    • video/mpg
    • video/avi
    • video/wmv
    • video/mpegps
    • video/flv
  • TEXT:要包含在提示中的文本说明。 例如 You are a very professional document summarization specialist. Please summarize the given document.


将请求正文保存在名为 request.json 的文件中。在终端中运行以下命令,在当前目录中创建或覆盖此文件:

cat > request.json << 'EOF'
  "contents": {
    "role": "USER",
    "parts": [
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        "text": "TEXT"

然后,执行以下命令以发送 REST 请求:

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \

将请求正文保存在名为 request.json 的文件中。在终端中运行以下命令,在当前目录中创建或覆盖此文件:

  "contents": {
    "role": "USER",
    "parts": [
        "fileData": {
          "fileUri": "FILE_URI",
          "mimeType": "MIME_TYPE"
        "text": "TEXT"
'@  | Out-File -FilePath request.json -Encoding utf8

然后,执行以下命令以发送 REST 请求:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/gemini-1.5-flash:generateContent" | Select-Object -Expand Content

您应该收到类似以下内容的 JSON 响应。

  "candidates": [
      "content": {
        "role": "model",
        "parts": [
            "text": "This report presents Gemini 1.5 Pro, the first model release in the Gemini 1.5
              family, a novel mixture-of-experts multimodal model capable of recalling and reasoning
              over extremely long contexts of information, up to 10 million tokens. This surpasses
              existing models, which are typically constrained to 200,000 tokens.\n\nGemini 1.5 Pro
              is a highly compute-efficient model that improves on Gemini 1.0 Pro's performance
              across a range of benchmarks, even surpassing Gemini 1.0 Ultra in many categories
              while requiring less training compute. In particular, the model excels in handling
              long-context retrieval tasks, achieving near-perfect recall for text, audio and video,
              and even demonstrating in-context learning capabilities by learning to translate a new
              language from just one book.\n\nThe report discusses the new long-context capabilities
              of Gemini 1.5 Pro, including its novel architecture and training infrastructure, and
              showcases qualitative examples of the model's ability to handle long, mixed-modality
              inputs. It then explores quantitative evaluations of the model's performance in
              several categories, including perplexity over long sequences, needle-in-a-haystack
              retrieval tasks, and realistic multimodal benchmarks like long-document QA and
              long-context audio understanding. The report also addresses the important aspects of
              responsible deployment, outlining the model's impact assessment, evaluation approach,
              and mitigation efforts.\n\nOverall, Gemini 1.5 Pro represents a significant
              advancement in multimodal language modeling, pushing the boundaries of long-context
              understanding and showcasing the potential for large models to handle complex,
              mixed-modality information at scale. \n"
      "finishReason": "STOP",
      "safetyRatings": [
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.13273923,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.08819004
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.1046602,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.0996453
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.15987214,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.098946586
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.056966383,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.075721376
  "usageMetadata": {
    "promptTokenCount": 19882,
    "candidatesTokenCount": 336,
    "totalTokenCount": 20218
  • 使用 generateContent 方法请求在回答完全生成后返回回答。 为了降低真人观众对于延迟的感知度,请使用 streamGenerateContent 方法在生成回答时流式传输回答。
  • 多模态模型 ID 位于网址末尾且位于方法之前(例如 gemini-1.5-flashgemini-1.0-pro-vision)。此示例可能还支持其他模型。
如需使用 Google Cloud 控制台发送多模态提示,请执行以下操作:

  1. 在 Google Cloud 控制台的 Vertex AI 部分中,进入 Vertex AI Studio 页面。

    前往 Vertex AI Studio

  2. 点击打开自由格式模式

  3. 可选:配置模型和参数:

    • 模型:选择一个模型。
    • 区域:选择您要使用的区域。
    • 温度:使用滑块或文本框输入温度值。

      温度 (temperature) 在生成回复期间用于采样,在应用 topPtopK 时会生成回复。温度可以控制词元选择的随机性。 较低的温度有利于需要更少开放性或创造性回复的提示,而较高的温度可以带来更具多样性或创造性的结果。温度为 0 表示始终选择概率最高的词元。在这种情况下,给定提示的回复大多是确定的,但可能仍然有少量变化。


    • 输出 token 限制:使用滑块或文本框输入输出上限值。

      回复中可生成的词元数量上限。词元约为 4 个字符。100 个词元对应大约 60-80 个单词。


    • 添加停止序列:可选。输入停止序列,即包含空格的一系列字符。如果模型遇到停止序列,则回答生成会停止。停止序列不包含在回答中,您最多可以添加五个停止序列。

  4. 可选:如需配置高级参数,请点击高级,然后按如下方式进行配置:

    • Top-K:使用滑块或文本框输入 top-K 值。 (Gemini 1.5 不支持)。

      Top-K 可更改模型选择输出词元的方式。如果 top-K 设为 1,表示所选词元是模型词汇表的所有词元中概率最高的词元(也称为贪心解码)。如果 top-K 设为 3,则表示系统将从 3 个概率最高的词元(通过温度确定)中选择下一个词元。

      在每个词元选择步骤中,系统都会对概率最高的 top-K 词元进行采样。然后,系统会根据 top-P 进一步过滤词元,并使用温度采样选择最终的词元。


    • Top-P:使用滑块或文本框输入 top-P 值。 系统会按照概率从最高到最低的顺序选择词元,直到所选词元的概率总和等于 top-P 的值。如需获得数量最小的变量结果,请将 top-P 设置为 0
    • 回答数量上限:使用滑块或文本框输入要生成的回答数量的值。
    • 流式回答:启用此选项可在生成回答时输出回答。
    • 安全过滤器阈值:选择您看到可能有害的回答的可能性的阈值。
    • 启用接地:多模态提示不支持接地。

  5. 点击插入媒体,然后为文件选择一个来源。




    1. 选择一个账号,并在您首次选择此选项时同意 Vertex AI Studio 访问您的账号。您可以上传多个文件,但总大小不得超过 10 MB。单个文件的大小不能超过 7 MB。
    2. 点击要添加的文件。
    3. 点击选择

      文件缩略图会显示在提示窗格中。 系统还会显示 token 总数。如果提示数据超过 token 限制,则 token 会被截断,并且不会用于处理数据。

  6. 提示窗格中输入文本提示。

  7. 可选:如需查看 Token ID 到文本Token ID,请点击提示窗格中的 token 数量

  8. 点击提交

  9. 可选:如需将提示保存到我的提示,请点击 保存

  10. 可选:如需获取提示的 Python 代码或 curl 命令,请点击 获取代码




多模态 Gemini 模型支持以下文档 MIME 类型:

MIME 类型文档 Gemini 2.0 Flash Gemini 2.0 Flash-Lite Gemini 1.5 Flash Gemini 1.5 Pro Gemini 1.0 Pro Vision
PDF - application/pdf
文本 - text/plain

PDF 文件被视为图片,因此 PDF 文件的单页被视为一张图片。提示中允许的页数取决于模型可以支持的图片数量:

  • Gemini 2.0 Flash、Gemini 2.0 Flash-Lite、Gemini 1.5 Pro 和 Gemini 1.5 Flash
    • 每个请求的文件数量上限:3,000
    • 每个文件的页数上限:1,000
    • 每个文件的大小上限:50 MB
  • Gemini 1.0 Pro Vision
    • 每个请求的文件数量上限:16
    • 每个文件的页数上限:16
    • 每个文件的大小上限:50 MB
以下是使用 Gemini 1.5 Flash(可在单个请求中处理总共 3,000 页)时在单个请求中可提供的部分上限示例:
  • 3,000 个单页 PDF 文件
  • 10 个 300 页的 PDF 文件
  • 3 个 1,000 页的 PDF 文件

PDF 词元化

PDF 文件被视为图片,因此 PDF 文件的每页都会以与图片相同的方式进行词元化。

此外,PDF 的费用遵循 Gemini 图片价格。 例如,如果您在 Gemini API 调用中包含一个两页的 PDF 文件,则会产生处理两张图片的输入费用。


纯文本文档会被词元化为文本。例如,如果您在 Gemini API 调用中包含一个 100 字词的纯文本文档,则会产生处理 100 个字词的输入费用。

PDF 文件最佳实践

使用 PDF 文件时,请遵循以下最佳实践和信息以获得最佳结果:

  • 如果提示包含单个 PDF 文件,请将该 PDF 文件放在请求中的文本提示前面。
  • 如果您的文档很长,请考虑将其拆分为多个 PDF 进行处理。
  • 使用以文本形式呈现的 PDF 文件,而不是使用扫描图片中的文本。此格式可确保文本是机器可读的,与扫描的图片 PDF 相比,文本更易于模型修改、搜索和操作。在使用合同等包含大量文本的文档时,这样可以提供最佳结果。


虽然多模态 Gemini 模型在许多多模态应用场景中表现出强大功能,但了解模型的限制非常重要:

  • 空间推理:模型在定位 PDF 中的文本或对象时并不精确。它们可能只返回对象数的近似值。
  • 准确性:模型在解读 PDF 文档中的手写文字时可能会产生幻觉。
