Visão geral da API Gemini na Vertex AI



Modelos multimodais do Gemini

Um modelo multimodal é aquele capaz de processar informações de várias modalidades, incluindo imagens, vídeos e texto. Por exemplo, é possível enviar para o modelo a foto de um prato de cookies e pedir a receita deles.

Modelos do Gemini

Os seguintes modelos do Gemini estão disponíveis:

  • Gemini 1.5 Flash: o modelo multimodal mais rápido e econômico do Genmini. Ele foi criado para tarefas de baixo custo e alto volume e aplicativos sensíveis à latência. Como o Gemini 1.5 Flash é mais responsivo do que outros modelos mais caros, ele é uma boa opção para criar assistentes de chat e aplicativos de geração de conteúdo sob demanda.
  • Gemini 1.5 Pro: (pré-lançamento) criado para ser multimodal (texto, imagens, áudio, PDFs, código, vídeos) e para escalonamento em uma ampla variedade de tarefas com até 1 milhão de tokens de entrada.
  • Gemini Pro 1.0: desenvolvido para tarefas de linguagem natural, chat com vários turnos, texto e código e geração de código.
  • Gemini 1.0 Pro Vision: oferece suporte a solicitações multimodais. É possível incluir texto, imagens e vídeo nas solicitações e receber respostas de texto ou código.

Casos de uso do Gemini 1.5 Pro e Gemini 1.5 Flash

O Gemini 1.5 Pro e o Gemini 1.5 Flash oferecem suporte à geração de texto de um prompt que inclui uma das seguintes modalidades ou uma combinação delas: texto, código, PDFs, imagens, áudio e vídeo. Os casos de uso incluem, mas não são limitados a, entre outros:

Caso de uso Descrição
Resumo Resumo: crie uma versão mais curta de um documento que incorpore informações pertinentes do texto original. Por exemplo, é possível resumir um capítulo de um livro didático. Também é possível criar uma descrição sucinta do produto a partir de um parágrafo longo que descreva o produto em detalhes.
Busca de informações visuais Use conhecimento externo combinado com informações extraídas da imagem ou do vídeo de entrada para responder às perguntas.
Reconhecimento de objetos Responda a perguntas relacionadas à identificação detalhada dos objetos em imagens e vídeos.
Compreensão do conteúdo digital Responda a perguntas e extraia informações de conteúdos visuais, como infográficos, gráficos, figuras, tabelas e páginas da Web.
Geração de conteúdo estruturado Gere respostas com base em entradas multimodais em formatos como HTML e JSON.
Legendas e descrição Gere descrições de imagens e vídeos com vários níveis de detalhes.
Conteúdo de longa duração É possível processar conteúdo de formato longo, com até 1 milhão de tokens, incluindo texto, código, imagem, vídeo e áudio.
Raciocínio Inferir de maneira composicional novas informações sem memorização ou recuperação.
Áudio Analise arquivos de fala para resumo, transcrição e perguntas e respostas.
O áudio e o vídeo Resuma um arquivo de vídeo com áudio e retorne os capítulos com marcações de tempo.
Processamento multimodal Processe vários tipos de mídia de entrada ao mesmo tempo, como entrada de vídeo e áudio.

Casos de uso do Gemini 1.0 Pro

O Gemini 1.0 Pro oferece suporte à geração de texto e código a partir de um comando de texto. Os casos de uso incluem, entre outros:

Caso de uso Descrição
Resumo Resumo: crie uma versão mais curta de um documento que incorpore informações pertinentes do texto original. Por exemplo, é possível resumir um capítulo de um livro didático. Também é possível criar uma descrição sucinta do produto a partir de um parágrafo longo que descreva o produto em detalhes.
Respostas a perguntas Responda às perguntas em texto. Por exemplo, é possível automatizar a criação de um documento de Perguntas frequentes a partir do conteúdo da base de conhecimento.
Compreensão do conteúdo digital Atribua um rótulo ao texto fornecido. Por exemplo, um rótulo pode ser aplicado a textos que descrevem como ele é gramaticalmente correto.
Classificação Atribua um rótulo que descreva o texto fornecido. Por exemplo, aplique rótulos que descrevam se um bloco de texto está gramaticalmente correto.
Busca de informações Combine conhecimento mundial com informações extraídas de imagens e vídeos.
Reconhecimento de objetos Responda a perguntas relacionadas à identificação detalhada dos objetos em imagens e vídeos.
Análise de sentimento É uma forma de classificação que identifica o sentimento do texto. O sentimento é transformado em um rótulo aplicado ao texto. Por exemplo, o sentimento do texto pode ser polaridades positivas ou negativas, sentimentos de raiva ou felicidade.
Extração de entidades Gere textos especificando um conjunto de requisitos e um plano de fundo. Por exemplo, talvez você queira redigir um e-mail em um determinado contexto usando um determinado tom.
Geração de códigos Gerar código com base em uma descrição. Por exemplo, é possível pedir ao modelo para escrever uma função que verifica se um ano é bissexto.

Casos de uso do Gemini 1.0 Pro Vision

O Gemini 1.0 Pro Vision oferece suporte à geração de texto usando texto, imagens e vídeo como entrada. Os casos de uso incluem, entre outros:

Caso de uso Descrição
Busca de informações Combine conhecimento mundial com informações extraídas de imagens e vídeos.
Reconhecimento de objetos Responda a perguntas relacionadas à identificação detalhada dos objetos em imagens e vídeos.
Compreensão do conteúdo digital Responda a perguntas extraindo informações do conteúdo, como infográficos, gráficos, figuras, tabelas e páginas da Web.
Geração de conteúdo estruturado Gere respostas em formatos como HTML e JSON com base nas instruções de solicitação fornecidas.
Legendas / descrição Gere descrições de imagens e vídeos com vários níveis de detalhes.
Extrapolação Faça suposições sobre o que não é mostrado em uma imagem ou o que acontece antes ou depois de um vídeo.
Detecção de objetos em fotos Detecta um objeto em uma imagem e retorna uma descrição em texto do objeto.
Retornar informações sobre itens em uma imagem Use uma imagem que contenha vários itens de mercado para que o Gemini 1.0 Pro Vision possa retornar uma estimativa de quanto você precisa pagar por eles.
Entender as telas e interfaces Extraia informações de telas, interfaces de usuário e layouts de dispositivos. Por exemplo, use a imagem de um dispositivo com o Gemini 1.0 Pro Vision para receber instruções sobre como usá-lo.
Entender os diagramas técnicos Decifre um diagrama de relacionamento de entidades (ER), entenda as relações entre tabelas, identifique requisitos de otimização em um ambiente específico como o BigQuery.
Fazer uma recomendação com base em várias imagens Use fotos de óculos para receber uma recomendação sobre o que se encaixa melhor no seu rosto.
Gerar uma descrição do vídeo Detectar o que é mostrado em um vídeo. Por exemplo, inclua um vídeo de um destino de férias e encontre uma descrição dele, as cinco principais coisas para fazer e sugestões de como chegar lá.

Para saber mais sobre como criar comandos para vários usos, consulte as seguintes páginas:

Consulte também: Limitações multimodais.

SDKs de linguagem de programação

A API Vertex AI Gemini fornece SDKs nas seguintes linguagens:

Python

O SDK do Python é fornecido no pacote vertexai.

from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")
response = model.generate_content(["What is this?"])

Node.js

O SDK da Vertex AI para Node.js permite usar a API Gemini na Vertex AI para criar recursos e aplicativos com tecnologia de IA.

// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});

const result = await model.generateContent([
  "What is this?",
  {inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);

Java

A API Vertex AI para Java é fornecida no artefato google-cloud-vertexai.

public static void main(String[] args) throws Exception {
  try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
    GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
  List<Content> contents = new ArrayList<>();
  contents.add(ContentMaker
                .fromMultiModalData(
                    "What is this?",
                    PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
  GenerateContentResponse response = model.generateContent(contents);
  }
}

Go

O SDK do Go é fornecido no pacote cloud.google.com/go/vertexai.

model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)

Quais são as diferenças entre a API Gemini ea API Gemini no Google AI Studio

A API Gemini na Vertex AI e a API Gemini no Google AI Studio permitem incorporar os recursos dos modelos do Gemini aos seus aplicativos. A plataforma certa depende dos seus objetivos.

A API Vertex AI Gemini foi projetada para desenvolvedores e empresas para uso em implantações escalonadas. Ela oferece recursos como segurança empresarial, residência de dados, desempenho e suporte técnico. Se você já é um cliente do Google Cloud ou implanta aplicativos de média a grande escala, está no lugar certo.

Se você é um hobby, estudante ou desenvolvedor iniciante no Google Cloud, teste a API Google AI Gemini, que é adequada para experimentação, prototipagem e pequenas implantações. Se você está procurando uma maneira de usar o Gemini diretamente dos seus apps para dispositivos móveis e da Web, consulte os SDKs da IA do Google para Android, Swift e Web.

Documentação da API Vertex AI Gemini

Selecione um dos tópicos a seguir para saber mais sobre a API Vertex AI Gemini.

Começar a usar a API Vertex AI Gemini


Migrar para a API Vertex AI Gemini


Aprenda a usar os principais recursos