Visão geral dos modelos multimodais


  • Testar a miniatura do Gemini
    Testar a API Gemini

    Depois de configurar o Google Cloud, teste algumas solicitações multimodais no Vertex AI Studio ou em um tutorial de notebook usando o SDK do Python ou a API REST.

  • Miniatura da referência da API Gemini
    Referência da API Vertex AI Gemini

    Saiba mais sobre os endpoints, parâmetros e valores de retorno da API Vertex AI Gemini.

  • Miniatura de solicitações multimodais do Gemini
    Design de solicitações multimodais

    Conheça as práticas recomendadas para criar solicitações multimodais e confira os exemplos de solicitações.


Modelos multimodais

Solicitação Resposta

Mostre um roteiro para esses cookies.


Cookies
**INGREDIENTES**
- 1 c. (2 palitos) manteiga sem sal e suave
- 3/4 de xícara de açúcar granulado
- 3/4 de xícara de açúcar mascavo, embalado
- 1 colher de chá. extrato de baunilha
- 2 ovos grandes
- 2 1/4 de xícara de farinha de trigo
- 1 colher de chá de bicarbonato de sódio
- 1 colher de chá de sal
...

Um modelo multimodal é aquele capaz de processar informações de várias modalidades, incluindo imagens, vídeos e texto. Por exemplo, é possível enviar para o modelo a foto de um prato de cookies e pedir que ele mostre uma receita disso.

Modelos do Gemini

Os seguintes modelos do Gemini estão disponíveis:

  • Gemini 1.5 Pro: (pré-lançamento) criado para ser multimodal (texto, imagens, áudio, PDFs, código, vídeos) e para escalonamento em uma ampla variedade de tarefas com até 1 milhão de tokens de entrada.
  • Gemini Pro 1.0: desenvolvido para tarefas de linguagem natural, chat com vários turnos, texto e código e geração de código.
  • Gemini 1.0 Pro Vision: oferece suporte a solicitações multimodais. É possível incluir texto, imagens e vídeo nas solicitações e receber respostas de texto ou código.

Casos de uso do Gemini 1.5 Pro

Gemini 1.5 Pro (Pré-lançamento) oferece suporte à geração de texto de um comando que inclui uma das seguintes modalidades ou uma combinação delas em um comando: texto, código, PDFs imagens, áudio e vídeo. Os casos de uso incluem, mas não são limitados a, entre outros:

Caso de uso Descrição
Resumo Resumo: crie uma versão mais curta de um documento que incorpore informações pertinentes do texto original. Por exemplo, é possível resumir um capítulo de um livro didático. Também é possível criar uma descrição sucinta do produto a partir de um parágrafo longo que descreva o produto em detalhes.
Busca de informações visuais Use conhecimento externo combinado com informações extraídas da imagem ou do vídeo de entrada para responder às perguntas.
Reconhecimento de objetos Responda a perguntas relacionadas à identificação detalhada dos objetos em imagens e vídeos.
Compreensão do conteúdo digital Responda a perguntas e extraia informações de conteúdos visuais, como infográficos, gráficos, figuras, tabelas e páginas da Web.
Geração de conteúdo estruturado Gere respostas com base em entradas multimodais em formatos como HTML e JSON.
Legendas e descrição Gere descrições de imagens e vídeos com vários níveis de detalhes.
Conteúdo de longa duração É possível processar conteúdo de formato longo, com até 1 milhão de tokens, incluindo texto, código, imagem, vídeo e áudio.
Raciocínio Inferir de maneira composicional novas informações sem memorização ou recuperação.
Áudio Analise arquivos de fala para resumo, transcrição e perguntas e respostas.
O áudio e o vídeo Resuma um arquivo de vídeo com áudio e retorne os capítulos com marcações de tempo.
Processamento multimodal Processe vários tipos de mídia de entrada ao mesmo tempo, como entrada de vídeo e áudio.

Casos de uso do Gemini 1.0 Pro

O Gemini 1.0 Pro oferece suporte à geração de texto e código a partir de um comando de texto. Os casos de uso incluem, entre outros:

Caso de uso Descrição
Resumo Resumo: crie uma versão mais curta de um documento que incorpore informações pertinentes do texto original. Por exemplo, é possível resumir um capítulo de um livro didático. Também é possível criar uma descrição sucinta do produto a partir de um parágrafo longo que descreva o produto em detalhes.
Respostas a perguntas Responda às perguntas em texto. Por exemplo, é possível automatizar a criação de um documento de Perguntas frequentes a partir do conteúdo da base de conhecimento.
Compreensão do conteúdo digital Atribua um rótulo ao texto fornecido. Por exemplo, um rótulo pode ser aplicado a textos que descrevem como ele é gramaticalmente correto.
Classificação Gere respostas em formatos como HTML e JSON com base nas instruções de solicitação fornecidas.
Busca de informações Combine conhecimento mundial com informações extraídas de imagens e vídeos.
Reconhecimento de objetos Responda a perguntas relacionadas à identificação detalhada dos objetos em imagens e vídeos.
Análise de sentimento É uma forma de classificação que identifica o sentimento do texto. O sentimento é transformado em um rótulo aplicado ao texto. Por exemplo, o sentimento do texto pode ser polaridades positivas ou negativas, sentimentos de raiva ou felicidade.
Extração de entidades Gere textos especificando um conjunto de requisitos e um plano de fundo. Por exemplo, talvez você queira redigir um e-mail em um determinado contexto usando um determinado tom.
Geração de códigos Gerar código com base em uma descrição. Por exemplo, é possível pedir ao modelo para escrever uma função que verifica se um ano é bissexto.

Casos de uso do Gemini 1.0 Pro Vision

O Gemini 1.0 Pro Vision oferece suporte à geração de texto usando texto, imagens e vídeo como entrada. Os casos de uso incluem, entre outros:

Caso de uso Descrição
Busca de informações Combine conhecimento mundial com informações extraídas de imagens e vídeos.
Reconhecimento de objetos Responda a perguntas relacionadas à identificação detalhada dos objetos em imagens e vídeos.
Compreensão do conteúdo digital Responda a perguntas extraindo informações do conteúdo, como infográficos, gráficos, figuras, tabelas e páginas da Web.
Geração de conteúdo estruturado Gere respostas em formatos como HTML e JSON com base nas instruções de solicitação fornecidas.
Legendas / descrição Gere descrições de imagens e vídeos com vários níveis de detalhes.
Extrapolação Faça suposições sobre o que não é mostrado em uma imagem ou o que acontece antes ou depois de um vídeo.
Detecção de objetos em fotos Detecta um objeto em uma imagem e retorna uma descrição em texto do objeto.
Retornar informações sobre itens em uma imagem Use uma imagem que contenha vários itens de mercado para que o Gemini 1.0 Pro Vision possa retornar uma estimativa de quanto você precisa pagar por eles.
Entender as telas e interfaces Extraia informações de telas, interfaces de usuário e layouts de dispositivos. Por exemplo, use a imagem de um dispositivo com o Gemini 1.0 Pro Vision para receber instruções sobre como usá-lo.
Entender os diagramas técnicos Decifre um diagrama de relacionamento de entidades (ER), entenda as relações entre tabelas, identifique requisitos de otimização em um ambiente específico como o BigQuery.
Fazer uma recomendação com base em várias imagens Use fotos de óculos para receber uma recomendação sobre o que se encaixa melhor no seu rosto.
Gerar uma descrição do vídeo Detectar o que é mostrado em um vídeo. Por exemplo, inclua um vídeo de um destino de férias e encontre uma descrição dele, as cinco principais coisas para fazer e sugestões de como chegar lá.

Para saber mais sobre como criar comandos para vários usos, consulte as seguintes páginas:

Consulte também: Pontos fortes e limitações do modelo

SDKs de linguagem de programação

A API Vertex AI Gemini oferece suporte aos seguintes SDKs:

Python

from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")

response = model.generate_content(["What is this?", img])

Node.js

// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});

const result = await model.generateContent([
  "What is this?",
  {inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);

Java

public static void main(String[] args) throws Exception {
  try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
    GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
  List<Content> contents = new ArrayList<>();
  contents.add(ContentMaker
                .fromMultiModalData(
                    "What is this?",
                    PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
  GenerateContentResponse response = model.generateContent(contents);
    }
  }
}

Go

model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)

Qual é a diferença da API Google AI Gemini

A API Vertex AI Gemini e a API Google AI Gemini permitem incorporar os recursos dos modelos do Gemini aos aplicativos. A plataforma certa depende dos seus objetivos.

A API Vertex AI Gemini foi projetada para desenvolvedores e empresas para uso em implantações escalonadas. Ela oferece recursos como segurança empresarial, residência de dados, desempenho e suporte técnico. Se você já é um cliente do Google Cloud ou implanta aplicativos de média a grande escala, está no lugar certo.

Se você é um hobby, estudante ou desenvolvedor iniciante no Google Cloud, teste a API Google AI Gemini, que é adequada para experimentação, prototipagem e pequenas implantações. Se você está procurando uma maneira de usar o Gemini diretamente dos seus apps para dispositivos móveis e da Web, consulte os SDKs da IA do Google para Android, Swift e Web.

Documentação da API Vertex AI Gemini

Selecione um dos tópicos a seguir para saber mais sobre a API Vertex AI Gemini.

Começar a usar a API Vertex AI Gemini


Migrar para a API Vertex AI Gemini


Aprenda a usar os principais recursos