Esta página foi traduzida pela API Cloud Translation.

Gerar conteúdo com a API Gemini na Vertex AI

Usar generateContent ou streamGenerateContent para gerar conteúdo com o Gemini.

A família de modelos do Gemini inclui modelos que funcionam com solicitações de comando multimodais. O termo multimodal indica que é possível usar mais de uma modalidade, ou tipo de entrada, em um comando. Os modelos que não são multimodais aceitam solicitações apenas com texto. As modalidades podem incluir texto, áudio, vídeo e muito mais.

Crie uma conta do Google Cloud para começar

Para começar a usar a API Gemini na Vertex AI, crie uma conta Google Cloud .

Depois de criar sua conta, use este documento para analisar o corpo da solicitação do modelo Gemini, os parâmetros do modelo, o corpo da resposta e alguns exemplos de solicitações.

Quando estiver tudo pronto, consulte o guia de início rápido da API Gemini na Vertex AI para saber como enviar uma solicitação à API Gemini na Vertex AI usando o SDK da linguagem de programação ou a API REST.

Modelos compatíveis

Todos os modelos do Gemini oferecem suporte à geração de conteúdo.

Lista de parâmetros

Confira exemplos para detalhes de implementação.

Corpo da solicitação

{
  "cachedContent": string,
  "contents": [
    {
      "role": string,
      "parts": [
        {
          // Union field data can be only one of the following:
          "text": string,
          "inlineData": {
            "mimeType": string,
            "data": string
          },
          "fileData": {
            "mimeType": string,
            "fileUri": string
          },
          // End of list of possible types for union field data.

          "videoMetadata": {
            "startOffset": {
              "seconds": integer,
              "nanos": integer
            },
            "endOffset": {
              "seconds": integer,
              "nanos": integer
            },
            "fps": double
          }
        }
      ]
    }
  ],
  "systemInstruction": {
    "role": string,
    "parts": [
      {
        "text": string
      }
    ]
  },
  "tools": [
    {
      "functionDeclarations": [
        {
          "name": string,
          "description": string,
          "parameters": {
            object (OpenAPI Object Schema)
          }
        }
      ]
    }
  ],
  "safetySettings": [
    {
      "category": enum (HarmCategory),
      "threshold": enum (HarmBlockThreshold)
    }
  ],
  "generationConfig": {
    "temperature": number,
    "topP": number,
    "topK": number,
    "candidateCount": integer,
    "maxOutputTokens": integer,
    "presencePenalty": float,
    "frequencyPenalty": float,
    "stopSequences": [
      string
    ],
    "responseMimeType": string,
    "responseSchema": schema,
    "seed": integer,
    "responseLogprobs": boolean,
    "logprobs": integer,
    "audioTimestamp": boolean,
    "thinkingConfig": {
      "thinkingBudget": integer
    }
  },
  "labels": {
    string: string
  }
}

O corpo da solicitação contém dados com os seguintes parâmetros:

Parâmetros
`cachedContent`	Opcional: `string` O nome do conteúdo em cache usado como contexto para disponibilizar a previsão. Formato: `projects/{project}/locations/{location}/cachedContents/{cachedContent}`
`contents`	Obrigatório: `Content` O conteúdo da conversa atual com o modelo. Para consultas de turno único, esta é uma instância única. Para consultas com várias interações, esse é um campo repetido que contém o histórico da conversa e a solicitação mais recente.
`systemInstruction`	Opcional: `Content` Disponível para `gemini-2.0-flash` e `gemini-2.0-flash-lite`. Instruções para o modelo gerar um desempenho melhor. Por exemplo, "Responda da forma mais concisa possível" ou "Não use termos técnicos na resposta". As strings `text` são contabilizadas no limite de tokens. O campo `role` do `systemInstruction` é ignorado e não afeta o desempenho do modelo. Observação: somente `text` pode ser usado em `parts` e o conteúdo de cada `part` precisa estar em um parágrafo separado.
`tools`	Opcional. Uma parte do código que permite ao sistema interagir com sistemas externos para realizar uma ação ou conjunto de ações fora do conhecimento e do escopo do modelo. Consulte Chamada de função.
`toolConfig`	Opcional. Consulte Chamada de função.
`safetySettings`	Opcional: `SafetySetting` Configurações conforme a solicitação para bloquear conteúdo não seguro. Aplicado em `GenerateContentResponse.candidates`.
`generationConfig`	Opcional: `GenerationConfig` Configurações de geração.
`labels`	Opcional: `string` Metadados que podem ser adicionados à chamada de API no formato de pares de chave-valor.

`contents`

O tipo de dados estruturados de base que contém várias partes de uma mensagem.

Essa classe consiste em duas properties principais: role e parts. A propriedade role indica o indivíduo que produz o conteúdo, enquanto a propriedade parts contém vários elementos, cada um representando um segmento de dados em uma mensagem.

Parâmetros

Parâmetros
`role`	`string` A identidade da entidade que cria a mensagem. Os valores a seguir são compatíveis: `user`: indica que a mensagem é enviada por uma pessoa real, geralmente uma mensagem gerada pelo usuário. `model`: indica que a mensagem é gerada pelo modelo. O valor `model` é usado para inserir mensagens do modelo na conversa durante conversas com vários turnos.
`parts`	`Part` Uma lista de partes ordenadas que compõem uma única mensagem. Partes diferentes podem ter tipos MIME IANA distintos. Para ver os limites das entradas, como o número máximo de tokens ou o número de imagens, consulte as especificações do modelo na página Modelos do Google. Para calcular o número de tokens na solicitação, consulte Receber contagem de tokens.

role

string

A identidade da entidade que cria a mensagem. Os valores a seguir são compatíveis:

user: indica que a mensagem é enviada por uma pessoa real, geralmente uma mensagem gerada pelo usuário.
model: indica que a mensagem é gerada pelo modelo.

O valor model é usado para inserir mensagens do modelo na conversa durante conversas com vários turnos.

parts

Part

Uma lista de partes ordenadas que compõem uma única mensagem. Partes diferentes podem ter tipos MIME IANA distintos.

Para ver os limites das entradas, como o número máximo de tokens ou o número de imagens, consulte as especificações do modelo na página Modelos do Google.

Para calcular o número de tokens na solicitação, consulte Receber contagem de tokens.

`parts`

Um tipo de dados que contém mídia que faz parte de uma mensagem Content de várias partes.

Parâmetros
`text`	Opcional: `string` Um comando de texto ou snippet de código.
`inlineData`	Opcional: `Blob` Dados inline em bytes brutos. Para `gemini-2.0-flash-lite` e `gemini-2.0-flash`, é possível especificar até 3.000 imagens usando `inlineData`.
`fileData`	Opcional: `fileData` Dados armazenados em um arquivo.
`functionCall`	Opcional: `FunctionCall`. Ele contém uma string que representa o campo `FunctionDeclaration.name` e um objeto JSON estruturado com todos os parâmetros para a chamada de função prevista pelo modelo. Consulte Chamada de função.
`functionResponse`	Opcional: `FunctionResponse`. A saída resultante de uma `FunctionCall` que contém uma string que representa o campo `FunctionDeclaration.name` e um objeto JSON estruturado com qualquer saída da chamada de função. Ele é usado como contexto para o modelo. Consulte Chamada de função.
`videoMetadata`	Opcional: `VideoMetadata` Para entrada de vídeo, o deslocamento inicial e final do vídeo no formato Duração e a taxa de frames do vídeo . Por exemplo, para especificar um clipe de 10 segundos a partir de 1:00 com uma taxa de 10 frames por segundo, defina o seguinte: `"startOffset": { "seconds": 60 }` `"endOffset": { "seconds": 70 }` `"fps": 10.0` Os metadados só devem ser especificados enquanto os dados do vídeo estiverem apresentados em `inlineData` ou `fileData`.

`blob`

blob de conteúdo Se possível, envie como texto em vez de bytes brutos.

Parâmetros

Parâmetros
`mimeType`	`string` O tipo de mídia do arquivo especificado nos campos `data` ou `fileUri`. Os valores aceitáveis são os seguintes: Clique para expandir os tipos MIME. `application/pdf` `audio/mpeg` `audio/mp3` `audio/wav` `image/png` `image/jpeg` `image/webp` `text/plain` `video/mov` `video/mpeg` `video/mp4` `video/mpg` `video/avi` `video/wmv` `video/mpegps` `video/flv` Para `gemini-2.0-flash-lite` e `gemini-2.0-flash`, a duração máxima de um arquivo de áudio é de 8,4 horas e a duração máxima de um arquivo de vídeo (sem áudio) é de uma hora. Para mais informações, consulte os requisitos de áudio e vídeo do Gemini. Os arquivos de texto precisam ser codificados em UTF-8. O conteúdo do arquivo de texto é contabilizado no limite de tokens. Não há limite para a resolução da imagem.
`data`	`bytes` A codificação Base64 da imagem, PDF ou do vídeo a ser incluído inline no comando. Ao incluir mídia inline, você também precisa especificar a mídia tipo (`mimeType`) dos dados. Limite de tamanho: 20 MB.

mimeType

string

O tipo de mídia do arquivo especificado nos campos data ou fileUri. Os valores aceitáveis são os seguintes:

Clique para expandir os tipos MIME.

application/pdf
audio/mpeg
audio/mp3
audio/wav
image/png
image/jpeg
image/webp
text/plain
video/mov
video/mpeg
video/mp4
video/mpg
video/avi
video/wmv
video/mpegps
video/flv

Para gemini-2.0-flash-lite e gemini-2.0-flash, a duração máxima de um arquivo de áudio é de 8,4 horas e a duração máxima de um arquivo de vídeo (sem áudio) é de uma hora. Para mais informações, consulte os requisitos de áudio e vídeo do Gemini.

Os arquivos de texto precisam ser codificados em UTF-8. O conteúdo do arquivo de texto é contabilizado no limite de tokens.

Não há limite para a resolução da imagem.

data

bytes

A codificação Base64 da imagem, PDF ou do vídeo a ser incluído inline no comando. Ao incluir mídia inline, você também precisa especificar a mídia tipo (mimeType) dos dados.

Limite de tamanho: 20 MB.

FileData

Dados de URI ou URL da Web.

Parâmetros

Parâmetros
`mimeType`	`string` Tipo MIME IANA dos dados.
`fileUri`	`string` O URI ou URL do arquivo a ser incluído no comando. Os valores aceitáveis são os seguintes: URI do bucket do Cloud Storage:o objeto precisa ser publicamente legível ou residir no mesmo projeto Google Cloud que está enviando a solicitação. Para `gemini-2.0-flash` e `gemini-2.0-flash-lite`, o limite de tamanho é de 2 GB. URL HTTP: o URL do arquivo precisa ser legível publicamente. É possível especificar um arquivo de vídeo, um arquivo de áudio e até 10 arquivos de imagem por solicitação. Os arquivos de áudio, vídeo e documentos não podem exceder 15 MB. URL do vídeo do YouTube:o vídeo do YouTube precisa ser de propriedade da conta que você usou para fazer login no console Google Cloud ou ser público. Somente um URL de vídeo do YouTube é aceito por solicitação. Ao especificar um `fileURI`, você também precisa especificar o tipo de mídia (`mimeType`) do arquivo. Se o VPC Service Controls estiver ativado, não será possível especificar um URL de arquivo de mídia para `fileURI`.

mimeType

string

Tipo MIME IANA dos dados.

fileUri

string

O URI ou URL do arquivo a ser incluído no comando. Os valores aceitáveis são os seguintes:

URI do bucket do Cloud Storage:o objeto precisa ser publicamente legível ou residir no mesmo projeto Google Cloud que está enviando a solicitação. Para gemini-2.0-flash e gemini-2.0-flash-lite, o limite de tamanho é de 2 GB.
URL HTTP: o URL do arquivo precisa ser legível publicamente. É possível especificar um arquivo de vídeo, um arquivo de áudio e até 10 arquivos de imagem por solicitação. Os arquivos de áudio, vídeo e documentos não podem exceder 15 MB.
URL do vídeo do YouTube:o vídeo do YouTube precisa ser de propriedade da conta que você usou para fazer login no console Google Cloud ou ser público. Somente um URL de vídeo do YouTube é aceito por solicitação.

Ao especificar um fileURI, você também precisa especificar o tipo de mídia (mimeType) do arquivo. Se o VPC Service Controls estiver ativado, não será possível especificar um URL de arquivo de mídia para fileURI.

`functionCall`

Um functionCall previsto retornado do modelo que contém uma string que representa o functionDeclaration.name e um objeto JSON estruturado contendo os parâmetros e os valores deles.

Parâmetros

Parâmetros
`name`	`string` O nome da função a ser chamada.
`args`	`Struct` Os parâmetros e valores da função no formato de objeto JSON. Consulte Chamada de função para ver detalhes dos parâmetros.

name

string

O nome da função a ser chamada.

args

Struct

Os parâmetros e valores da função no formato de objeto JSON.

Consulte Chamada de função para ver detalhes dos parâmetros.

`functionResponse`

A saída resultante de um FunctionCall que contém uma string que representa o FunctionDeclaration.name. Também contém um objeto JSON estruturado com a saída da função e o usa como contexto para o modelo. Ela precisa conter o resultado de uma FunctionCall feita com base na previsão do modelo.

Parâmetros

Parâmetros
`name`	`string` O nome da função a ser chamada.
`response`	`Struct` A resposta da função no formato de objeto JSON.

name

string

O nome da função a ser chamada.

response

Struct

A resposta da função no formato de objeto JSON.

`videoMetadata`

Metadados que descrevem o conteúdo do vídeo de entrada.

Parâmetros

Parâmetros
`startOffset`	Opcional: `google.protobuf.Duration` O deslocamento inicial do vídeo.
`endOffset`	Opcional: `google.protobuf.Duration` O deslocamento final do vídeo.
`fps`	Opcional: `double` A taxa de frames do vídeo enviado ao modelo. O padrão é `1.0` se não for especificado. O valor mínimo aceito é até `0.0`, mas não inclui. O valor máximo é `24.0`.

startOffset

Opcional: google.protobuf.Duration

O deslocamento inicial do vídeo.

endOffset

Opcional: google.protobuf.Duration

O deslocamento final do vídeo.

fps

Opcional: double

A taxa de frames do vídeo enviado ao modelo. O padrão é 1.0 se não for especificado. O valor mínimo aceito é até 0.0, mas não inclui. O valor máximo é 24.0.

`safetySetting`

Configurações de segurança.

Parâmetros

Parâmetros
`category`	Opcional: `HarmCategory` A categoria de segurança para a qual configurar um limite. Os valores aceitáveis são os seguintes: Clique para expandir as categorias de segurança `HARM_CATEGORY_SEXUALLY_EXPLICIT` `HARM_CATEGORY_HATE_SPEECH` `HARM_CATEGORY_HARASSMENT` `HARM_CATEGORY_DANGEROUS_CONTENT`
`threshold`	Opcional: `HarmBlockThreshold` O limite de bloqueio de respostas que podem pertencer à categoria de segurança especificada com base na probabilidade. `OFF` `BLOCK_NONE` `BLOCK_LOW_AND_ABOVE` `BLOCK_MEDIUM_AND_ABOVE` `BLOCK_ONLY_HIGH`
`method`	Opcional: `HarmBlockMethod` Especifique se o limite é usado para pontuação de probabilidade ou gravidade. Se não for especificado, o limite será usado para a pontuação de probabilidade.

category

Opcional: HarmCategory

A categoria de segurança para a qual configurar um limite. Os valores aceitáveis são os seguintes:

Clique para expandir as categorias de segurança

HARM_CATEGORY_SEXUALLY_EXPLICIT
HARM_CATEGORY_HATE_SPEECH
HARM_CATEGORY_HARASSMENT
HARM_CATEGORY_DANGEROUS_CONTENT

threshold

Opcional: HarmBlockThreshold

O limite de bloqueio de respostas que podem pertencer à categoria de segurança especificada com base na probabilidade.

OFF
BLOCK_NONE
BLOCK_LOW_AND_ABOVE
BLOCK_MEDIUM_AND_ABOVE
BLOCK_ONLY_HIGH

method

Opcional: HarmBlockMethod

Especifique se o limite é usado para pontuação de probabilidade ou gravidade. Se não for especificado, o limite será usado para a pontuação de probabilidade.

`harmCategory`

Categorias de danos que bloqueiam conteúdo.

Parâmetros
`HARM_CATEGORY_UNSPECIFIED`	A categoria de danos não foi especificada.
`HARM_CATEGORY_HATE_SPEECH`	A categoria de danos é discurso de ódio.
`HARM_CATEGORY_DANGEROUS_CONTENT`	A categoria de danos é um conteúdo perigoso.
`HARM_CATEGORY_HARASSMENT`	A categoria de dano é assédio.
`HARM_CATEGORY_SEXUALLY_EXPLICIT`	A categoria de dano é conteúdo sexualmente explícito.

`harmBlockThreshold`

Níveis de limites de probabilidade usados para bloquear uma resposta.

Parâmetros
`HARM_BLOCK_THRESHOLD_UNSPECIFIED`	Limite de bloqueio de danos não especificado.
`BLOCK_LOW_AND_ABOVE`	Bloquear o limite inferior e superior (ou seja, bloquear mais).
`BLOCK_MEDIUM_AND_ABOVE`	Bloquear limite médio e superior.
`BLOCK_ONLY_HIGH`	Bloquear apenas o limite superior (ou seja, bloquear menos).
`BLOCK_NONE`	Bloquear nenhum.
`OFF`	Desativa a segurança se todas as categorias estiverem DESATIVADAS

`harmBlockMethod`

Um limite de probabilidade que bloqueia uma resposta com base em uma combinação de probabilidade e gravidade.

Parâmetros
`HARM_BLOCK_METHOD_UNSPECIFIED`	O método do bloco de danos não foi especificado.
`SEVERITY`	O método do bloqueio de danos usa pontuações de probabilidade e gravidade.
`PROBABILITY`	O método do bloqueio de danos usa a pontuação de probabilidade.

`generationConfig`

Configurações usadas ao gerar o comando.

Parâmetros
`temperature`	Opcional: `float` A temperatura é usada para amostragem durante a geração da resposta, que ocorre quando `topP` e `topK` são aplicados. A temperatura controla o grau de aleatoriedade na seleção do token. Temperaturas mais baixas são boas para solicitações que exigem uma resposta menos aberta ou criativa, enquanto temperaturas mais altas podem levar a resultados mais diversos ou criativos. Uma temperatura de `0` significa que os tokens de maior probabilidade são sempre selecionados. Nesse caso, as respostas para uma determinada solicitação são, na maioria das vezes, deterministas, mas uma pequena variação ainda é possível. Se o modelo retornar uma resposta muito genérica, muito curta ou se o modelo fornecer uma resposta alternativa, tente aumentar a temperatura. Intervalo para `gemini-2.0-flash-lite`: `0.0 - 2.0` (padrão: `1.0`) Intervalo para `gemini-2.0-flash`: `0.0 - 2.0` (padrão: `1.0`) Para mais informações, consulte Parâmetros de geração de conteúdo.
`topP`	Opcional: `float` Se especificado, a amostragem de núcleos é usada. O Top-P muda a forma como o modelo seleciona tokens para saída. Os tokens são selecionados do mais provável (confira o Top-K) para o menos provável até que a soma das probabilidades seja igual ao valor do Top-P. Por exemplo, se os tokens A, B e C tiverem uma probabilidade de 0,3, 0,2 e 0,1 e o valor de Top-P for `0.5`, o modelo selecionará A ou B como token seguinte usando temperatura e excluirá C como candidato. Especifique um valor mais baixo para respostas menos aleatórias e um valor mais alto para respostas mais aleatórias. Intervalo: `0.0 - 1.0` Padrão para `gemini-2.0-flash-lite`: `0.95` Padrão para `gemini-2.0-flash`: `0.95`
`candidateCount`	Opcional: `int` O número de variações de resposta a serem retornadas. Para cada solicitação, você paga pelos tokens de saída de todos os candidatos, mas são cobrados apenas uma vez pelos tokens de entrada. Especificar vários candidatos é um recurso em fase de pré-lançamento que funciona com `generateContent` (`streamGenerateContent` não é compatível). Os seguintes modelos são compatíveis: `gemini-2.0-flash-lite`: `1`-`8`, padrão: `1` `gemini-2.0-flash`: `1`-`8`, padrão: `1`
`maxOutputTokens`	Opcional: int Número máximo de tokens que podem ser gerados na resposta. Um token tem cerca de quatro caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras. Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas. Para mais informações, consulte Parâmetros de geração de conteúdo.
`stopSequences`	Opcional: `List[string]` Especifica uma lista de strings que instrui o modelo a parar de gerar texto se uma das strings for encontrada na resposta. Se uma string aparecer várias vezes na resposta, a resposta truncará quando for encontrada pela primeira vez. As strings diferenciam maiúsculas de minúsculas. Por exemplo, se a resposta a seguir for retornada quando `stopSequences` não for especificado: `public static string reverse(string myString)` A resposta retornada com `stopSequences` definida como `["Str", "reverse"]` é: `public static string` Máximo de cinco itens na lista. Para mais informações, consulte Parâmetros de geração de conteúdo.
`presencePenalty`	Opcional: `float` Penalidades positivas. Valores positivos penalizam tokens que já aparecem no texto gerado, aumentando a probabilidade de gerar conteúdo mais diversificado. O valor máximo de `presencePenalty` é até `2.0`, mas não inclui. O valor mínimo é `-2.0`.
`frequencyPenalty`	Opcional: `float` Valores positivos penalizam tokens que aparecem repetidamente no texto gerado, diminuindo a probabilidade de repetir conteúdo. O valor máximo para `frequencyPenalty` é até `2.0`, mas não inclui. O valor mínimo é `-2.0`.
`responseMimeType`	Opcional: `string (enum)` O tipo MIME da resposta de saída do texto candidato gerado. Os seguintes tipos MIME são compatíveis: `application/json`: resposta JSON nos candidatos. `text/plain` (padrão): saída de texto simples. `text/x.enum`: para tarefas de classificação, gera um valor de tipo enumerado, conforme definido no esquema de resposta. Especifique o tipo de resposta adequado para evitar comportamentos não intencionais. Por exemplo, se você precisar de uma resposta formatada em JSON, especifique `application/json` e não `text/plain`. `text/plain` não é compatível com `responseSchema`.
`responseSchema`	Opcional: esquema O esquema que gerou o texto candidato precisa seguir. Para mais informações, consulte Controlar a saída gerada. Para usar esse parâmetro, especifique um tipo MIME compatível diferente de `text/plain` para o parâmetro `responseMimeType`.
`seed`	Opcional: `int` Quando a semente é fixada em um valor específico, o modelo se esforça para fornecer a mesma resposta para solicitações repetidas. A saída determinista não é garantida. Além disso, mudar as configurações do modelo ou do parâmetro, como a temperatura, pode causar variações na resposta, mesmo quando você usa o mesmo valor de semente. Por padrão, um valor de semente aleatório é usado.
`responseLogprobs`	Opcional: `boolean` Se verdadeiro, retorna as probabilidades de registro dos tokens que foram escolhidos pelo modelo em cada etapa. Por padrão, esse parâmetro é definido como `false`.
`logprobs`	Opcional: `int` Retorna as probabilidades de registro dos principais tokens candidatos em cada etapa de geração. O token escolhido pelo modelo pode não ser o mesmo que o token candidato principal em cada etapa. Especifique o número de candidatos a serem retornados usando um valor inteiro no intervalo de `1` a `20`. É necessário ativar `responseLogprobs` para usar esse parâmetro.
`audioTimestamp`	Opcional: `boolean` Disponível para os seguintes modelos: Gemini 2.0 Flash-Lite Gemini 2.0 Flash Permite o entendimento de carimbos de data/hora para arquivos somente de áudio. Este é um recurso em fase de pré-lançamento.
`thinkingConfig`	Opcional: `object` Configuração do processo de pensamento do modelo para modelos do Gemini 2.5. O objeto `thinkingConfig` contém o seguinte campo: `thinkingBudget`: `integer`. Por padrão, o modelo controla automaticamente o quanto ele inventa até um máximo de `8,192` tokens.

Corpo da resposta

{
  "candidates": [
    {
      "content": {
        "parts": [
          {
            "text": string
          }
        ]
      },
      "finishReason": enum (FinishReason),
      "safetyRatings": [
        {
          "category": enum (HarmCategory),
          "probability": enum (HarmProbability),
          "blocked": boolean
        }
      ],
      "citationMetadata": {
        "citations": [
          {
            "startIndex": integer,
            "endIndex": integer,
            "uri": string,
            "title": string,
            "license": string,
            "publicationDate": {
              "year": integer,
              "month": integer,
              "day": integer
            }
          }
        ]
      },
      "avgLogprobs": double,
      "logprobsResult": {
        "topCandidates": [
          {
            "candidates": [
              {
                "token": string,
                "logProbability": float
              }
            ]
          }
        ],
        "chosenCandidates": [
          {
            "token": string,
            "logProbability": float
          }
        ]
      }
    }
  ],
  "usageMetadata": {
    "promptTokenCount": integer,
    "candidatesTokenCount": integer,
    "totalTokenCount": integer
  },
  "modelVersion": string
}

Elemento de resposta	Descrição
`modelVersion`	O modelo e a versão usados para a geração. Exemplo: `gemini-2.0-flash-lite-001`.
`text`	O texto gerado.
`finishReason`	É o motivo pelo qual o modelo parou de gerar tokens. Se estiver vazio, o modelo não parou de gerar os tokens. Como a resposta usa o comando para contexto, não é possível alterar o comportamento de como o modelo para de gerar tokens. `FINISH_REASON_STOP`: ponto de parada natural do modelo ou sequência de paradas fornecida. `FINISH_REASON_MAX_TOKENS`: o número máximo de tokens especificado na solicitação foi atingido. `FINISH_REASON_SAFETY`: a geração de tokens foi interrompida porque a resposta foi sinalizada por motivos de segurança. Observe que `Candidate.content` fica vazio se os filtros de conteúdo bloquearem a saída. `FINISH_REASON_RECITATION`: a geração de tokens foi interrompida porque a resposta foi sinalizada por citações não autorizadas. `FINISH_REASON_BLOCKLIST`: a geração de tokens foi interrompida porque a resposta inclui termos bloqueados. `FINISH_REASON_PROHIBITED_CONTENT`: a geração de tokens foi interrompida porque a resposta foi sinalizada por conteúdo proibido, como material de abuso sexual infantil (CSAM, na sigla em inglês). `FINISH_REASON_SPII`: a geração de tokens foi interrompida porque a resposta foi sinalizada por informações sensíveis de identificação pessoal (SPII). `FINISH_REASON_MALFORMED_FUNCTION_CALL`: os candidatos foram bloqueados devido a uma chamada de função malformada e não analisável. `FINISH_REASON_OTHER`: todos os outros motivos que interromperam o token `FINISH_REASON_UNSPECIFIED`: o motivo da finalização não foi especificado.
`category`	A categoria de segurança para a qual configurar um limite. Os valores aceitáveis são os seguintes: Clique para expandir as categorias de segurança `HARM_CATEGORY_SEXUALLY_EXPLICIT` `HARM_CATEGORY_HATE_SPEECH` `HARM_CATEGORY_HARASSMENT` `HARM_CATEGORY_DANGEROUS_CONTENT`
`probability`	Os níveis de probabilidade de danos no conteúdo. `HARM_PROBABILITY_UNSPECIFIED` `NEGLIGIBLE` `LOW` `MEDIUM` `HIGH`
`blocked`	Uma sinalização booleana associada a um atributo de segurança que indica se a entrada ou a saída do modelo foi bloqueada.
`startIndex`	Um número inteiro que especifica onde começa uma citação em `content`. O `startIndex` está em bytes e é calculado com base na resposta codificada em UTF-8.
`endIndex`	Um número inteiro que especifica onde uma citação termina em `content`. O `endIndex` está em bytes e é calculado com base na resposta codificada em UTF-8.
`url`	O URL de uma fonte de citação. Exemplos de uma fonte de URL podem ser um site de notícias ou um repositório do GitHub.
`title`	O título de uma fonte de citação. Alguns exemplos de títulos de fontes são os de artigos de notícias ou livros.
`license`	A licença associada a uma citação.
`publicationDate`	A data em que uma citação foi publicada. Os formatos válidos são `YYYY`, `YYYY-MM` e `YYYY-MM-DD`.
`avgLogprobs`	Probabilidade média de registro do candidato.
`logprobsResult`	Retorna os principais tokens candidatos (`topCandidates`) e os tokens escolhidos (`chosenCandidates`) em cada etapa.
`token`	Os modelos de IA generativa dividem os dados de texto em tokens para processamento, que podem ser caracteres, palavras ou frases.
`logProbability`	Um valor de probabilidade de registro que indica a confiança do modelo para um token específico.
`promptTokenCount`	Número de tokens na solicitação.
`candidatesTokenCount`	Número de tokens nas respostas.
`totalTokenCount`	Número de tokens na solicitação e nas respostas.

Exemplos

Geração de texto

Gere uma resposta de texto com base em uma entrada de texto.

SDK da IA generativa para Python

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="How does AI work?",
)
print(response.text)
# Example response:
# Okay, let's break down how AI works. It's a broad field, so I'll focus on the ...
#
# Here's a simplified overview:
# ...

Python (OpenAI)

É possível chamar a API Inference usando a biblioteca OpenAI. Para mais informações, consulte Chamar modelos da Vertex AI usando a biblioteca OpenAI.

from google.auth import default
import google.auth.transport.requests

import openai

# TODO(developer): Update and un-comment below lines
# project_id = "PROJECT_ID"
# location = "us-central1"

# Programmatically get an access token
credentials, _ = default(scopes=["https://www.googleapis.com/auth/cloud-platform"])
credentials.refresh(google.auth.transport.requests.Request())

# OpenAI Client
client = openai.OpenAI(
    base_url=f"https://{location}-aiplatform.googleapis.com/v1/projects/{project_id}/locations/{location}/endpoints/openapi",
    api_key=credentials.token,
)

response = client.chat.completions.create(
    model="google/gemini-2.0-flash-001",
    messages=[{"role": "user", "content": "Why is the sky blue?"}],
)

print(response)

Go

import (
	"context"
	"fmt"
	"io"

	"google.golang.org/genai"
)

// generateWithText shows how to generate text using a text prompt.
func generateWithText(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{APIVersion: "v1"},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	resp, err := client.Models.GenerateContent(ctx,
		"gemini-2.5-flash",
		genai.Text("How does AI work?"),
		nil,
	)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)
	// Example response:
	// That's a great question! Understanding how AI works can feel like ...
	// ...
	// **1. The Foundation: Data and Algorithms**
	// ...

	return nil
}

Usar comandos multimodais

Gere uma resposta de texto com base em uma entrada multimodal, como texto e imagem.

SDK da IA generativa para Python

from google import genai
from google.genai.types import HttpOptions, Part

client = genai.Client(http_options=HttpOptions(api_version="v1"))
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents=[
        "What is shown in this image?",
        Part.from_uri(
            file_uri="gs://cloud-samples-data/generative-ai/image/scones.jpg",
            mime_type="image/jpeg",
        ),
    ],
)
print(response.text)
# Example response:
# The image shows a flat lay of blueberry scones arranged on parchment paper. There are ...

Python (OpenAI)

É possível chamar a API Inference usando a biblioteca OpenAI. Para mais informações, consulte Chamar modelos da Vertex AI usando a biblioteca OpenAI.


from google.auth import default
import google.auth.transport.requests

import openai

# TODO(developer): Update and un-comment below lines
# project_id = "PROJECT_ID"
# location = "us-central1"

# Programmatically get an access token
credentials, _ = default(scopes=["https://www.googleapis.com/auth/cloud-platform"])
credentials.refresh(google.auth.transport.requests.Request())

# OpenAI Client
client = openai.OpenAI(
    base_url=f"https://{location}-aiplatform.googleapis.com/v1/projects/{project_id}/locations/{location}/endpoints/openapi",
    api_key=credentials.token,
)

response = client.chat.completions.create(
    model="google/gemini-2.0-flash-001",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Describe the following image:"},
                {
                    "type": "image_url",
                    "image_url": "gs://cloud-samples-data/generative-ai/image/scones.jpg",
                },
            ],
        }
    ],
)

print(response)

Go

import (
	"context"
	"fmt"
	"io"

	genai "google.golang.org/genai"
)

// generateWithTextImage shows how to generate text using both text and image input
func generateWithTextImage(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{APIVersion: "v1"},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := []*genai.Content{
		{Parts: []*genai.Part{
			{Text: "What is shown in this image?"},
			{FileData: &genai.FileData{
				// Image source: https://storage.googleapis.com/cloud-samples-data/generative-ai/image/scones.jpg
				FileURI:  "gs://cloud-samples-data/generative-ai/image/scones.jpg",
				MIMEType: "image/jpeg",
			}},
		},
			Role: "user"},
	}

	resp, err := client.Models.GenerateContent(ctx, modelName, contents, nil)
	if err != nil {
		return fmt.Errorf("failed to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// The image shows an overhead shot of a rustic, artistic arrangement on a surface that ...

	return nil
}

Resposta de texto de streaming

Gerar uma resposta de modelo de streaming com base em uma entrada de texto.

SDK da IA generativa para Python

from google import genai
from google.genai.types import HttpOptions

client = genai.Client(http_options=HttpOptions(api_version="v1"))

for chunk in client.models.generate_content_stream(
    model="gemini-2.5-flash",
    contents="Why is the sky blue?",
):
    print(chunk.text, end="")
# Example response:
# The
#  sky appears blue due to a phenomenon called **Rayleigh scattering**. Here's
#  a breakdown of why:
# ...

Python (OpenAI)

É possível chamar a API Inference usando a biblioteca OpenAI. Para mais informações, consulte Chamar modelos da Vertex AI usando a biblioteca OpenAI.

from google.auth import default
import google.auth.transport.requests

import openai

# TODO(developer): Update and un-comment below lines
# project_id = "PROJECT_ID"
# location = "us-central1"

# Programmatically get an access token
credentials, _ = default(scopes=["https://www.googleapis.com/auth/cloud-platform"])
credentials.refresh(google.auth.transport.requests.Request())

# OpenAI Client
client = openai.OpenAI(
    base_url=f"https://{location}-aiplatform.googleapis.com/v1/projects/{project_id}/locations/{location}/endpoints/openapi",
    api_key=credentials.token,
)

response = client.chat.completions.create(
    model="google/gemini-2.0-flash-001",
    messages=[{"role": "user", "content": "Why is the sky blue?"}],
    stream=True,
)
for chunk in response:
    print(chunk)

Go

import (
	"context"
	"fmt"
	"io"

	genai "google.golang.org/genai"
)

// generateWithTextStream shows how to generate text stream using a text prompt.
func generateWithTextStream(w io.Writer) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{APIVersion: "v1"},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	modelName := "gemini-2.5-flash"
	contents := genai.Text("Why is the sky blue?")

	for resp, err := range client.Models.GenerateContentStream(ctx, modelName, contents, nil) {
		if err != nil {
			return fmt.Errorf("failed to generate content: %w", err)
		}

		chunk := resp.Text()

		fmt.Fprintln(w, chunk)
	}

	// Example response:
	// The
	//  sky is blue
	//  because of a phenomenon called **Rayleigh scattering**. Here's the breakdown:
	// ...

	return nil
}

Versões do modelo

Para usar a versão atualizada automaticamente, especifique o nome do modelo sem o número da versão à direita, por exemplo, gemini-2.0-flash em vez de gemini-2.0-flash-001.

Para mais informações, consulte Versões e ciclo de vida do modelo Gemini.

A seguir

Saiba mais sobre a API Gemini na Vertex AI.
Saiba mais sobre chamadas de funções.
Saiba mais sobre respostas de embasamento para modelos do Gemini.