-
Testar a API Gemini
Depois de configurar o Google Cloud, teste algumas solicitações multimodais no Vertex AI Studio ou em um tutorial de notebook usando o SDK do Python ou a API REST.
-
Referência da API Vertex AI Gemini
Saiba mais sobre os endpoints, parâmetros e valores de retorno da API Vertex AI Gemini.
-
Design de solicitações multimodais
Conheça as práticas recomendadas para criar solicitações multimodais e confira os exemplos de solicitações.
Modelos multimodais
Solicitação | Resposta |
Mostre um roteiro para esses cookies. |
**INGREDIENTES** - 1 c. (2 palitos) manteiga sem sal e suave - 3/4 de xícara de açúcar granulado - 3/4 de xícara de açúcar mascavo, embalado - 1 colher de chá. extrato de baunilha - 2 ovos grandes - 2 1/4 de xícara de farinha de trigo - 1 colher de chá de bicarbonato de sódio - 1 colher de chá de sal ... |
Um modelo multimodal é aquele capaz de processar informações de várias modalidades, incluindo imagens, vídeos e texto. Por exemplo, é possível enviar para o modelo a foto de um prato de cookies e pedir que ele mostre uma receita disso.
Modelos do Gemini
Os seguintes modelos do Gemini estão disponíveis:
- Gemini 1.5 Pro: (pré-lançamento) criado para ser multimodal (texto, imagens, áudio, PDFs, código, vídeos) e para escalonamento em uma ampla variedade de tarefas com até 1 milhão de tokens de entrada.
- Gemini Pro 1.0: desenvolvido para tarefas de linguagem natural, chat com vários turnos, texto e código e geração de código.
- Gemini 1.0 Pro Vision: oferece suporte a solicitações multimodais. É possível incluir texto, imagens e vídeo nas solicitações e receber respostas de texto ou código.
Casos de uso do Gemini 1.5 Pro
Gemini 1.5 Pro (Pré-lançamento) oferece suporte à geração de texto de um comando que inclui uma das seguintes modalidades ou uma combinação delas em um comando: texto, código, PDFs imagens, áudio e vídeo. Os casos de uso incluem, mas não são limitados a, entre outros:
Caso de uso | Descrição |
---|---|
Resumo | Resumo: crie uma versão mais curta de um documento que incorpore informações pertinentes do texto original. Por exemplo, é possível resumir um capítulo de um livro didático. Também é possível criar uma descrição sucinta do produto a partir de um parágrafo longo que descreva o produto em detalhes. |
Busca de informações visuais | Use conhecimento externo combinado com informações extraídas da imagem ou do vídeo de entrada para responder às perguntas. |
Reconhecimento de objetos | Responda a perguntas relacionadas à identificação detalhada dos objetos em imagens e vídeos. |
Compreensão do conteúdo digital | Responda a perguntas e extraia informações de conteúdos visuais, como infográficos, gráficos, figuras, tabelas e páginas da Web. |
Geração de conteúdo estruturado | Gere respostas com base em entradas multimodais em formatos como HTML e JSON. |
Legendas e descrição | Gere descrições de imagens e vídeos com vários níveis de detalhes. |
Conteúdo de longa duração | É possível processar conteúdo de formato longo, com até 1 milhão de tokens, incluindo texto, código, imagem, vídeo e áudio. |
Raciocínio | Inferir de maneira composicional novas informações sem memorização ou recuperação. |
Áudio | Analise arquivos de fala para resumo, transcrição e perguntas e respostas. |
O áudio e o vídeo | Resuma um arquivo de vídeo com áudio e retorne os capítulos com marcações de tempo. |
Processamento multimodal | Processe vários tipos de mídia de entrada ao mesmo tempo, como entrada de vídeo e áudio. |
Casos de uso do Gemini 1.0 Pro
O Gemini 1.0 Pro oferece suporte à geração de texto e código a partir de um comando de texto. Os casos de uso incluem, entre outros:
Caso de uso | Descrição |
---|---|
Resumo | Resumo: crie uma versão mais curta de um documento que incorpore informações pertinentes do texto original. Por exemplo, é possível resumir um capítulo de um livro didático. Também é possível criar uma descrição sucinta do produto a partir de um parágrafo longo que descreva o produto em detalhes. |
Respostas a perguntas | Responda às perguntas em texto. Por exemplo, é possível automatizar a criação de um documento de Perguntas frequentes a partir do conteúdo da base de conhecimento. |
Compreensão do conteúdo digital | Atribua um rótulo ao texto fornecido. Por exemplo, um rótulo pode ser aplicado a textos que descrevem como ele é gramaticalmente correto. |
Classificação | Gere respostas em formatos como HTML e JSON com base nas instruções de solicitação fornecidas. |
Busca de informações | Combine conhecimento mundial com informações extraídas de imagens e vídeos. |
Reconhecimento de objetos | Responda a perguntas relacionadas à identificação detalhada dos objetos em imagens e vídeos. |
Análise de sentimento | É uma forma de classificação que identifica o sentimento do texto. O sentimento é transformado em um rótulo aplicado ao texto. Por exemplo, o sentimento do texto pode ser polaridades positivas ou negativas, sentimentos de raiva ou felicidade. |
Extração de entidades | Gere textos especificando um conjunto de requisitos e um plano de fundo. Por exemplo, talvez você queira redigir um e-mail em um determinado contexto usando um determinado tom. |
Geração de códigos | Gerar código com base em uma descrição. Por exemplo, é possível pedir ao modelo para escrever uma função que verifica se um ano é bissexto. |
Casos de uso do Gemini 1.0 Pro Vision
O Gemini 1.0 Pro Vision oferece suporte à geração de texto usando texto, imagens e vídeo como entrada. Os casos de uso incluem, entre outros:
Caso de uso | Descrição |
---|---|
Busca de informações | Combine conhecimento mundial com informações extraídas de imagens e vídeos. |
Reconhecimento de objetos | Responda a perguntas relacionadas à identificação detalhada dos objetos em imagens e vídeos. |
Compreensão do conteúdo digital | Responda a perguntas extraindo informações do conteúdo, como infográficos, gráficos, figuras, tabelas e páginas da Web. |
Geração de conteúdo estruturado | Gere respostas em formatos como HTML e JSON com base nas instruções de solicitação fornecidas. |
Legendas / descrição | Gere descrições de imagens e vídeos com vários níveis de detalhes. |
Extrapolação | Faça suposições sobre o que não é mostrado em uma imagem ou o que acontece antes ou depois de um vídeo. |
Detecção de objetos em fotos | Detecta um objeto em uma imagem e retorna uma descrição em texto do objeto. |
Retornar informações sobre itens em uma imagem | Use uma imagem que contenha vários itens de mercado para que o Gemini 1.0 Pro Vision possa retornar uma estimativa de quanto você precisa pagar por eles. |
Entender as telas e interfaces | Extraia informações de telas, interfaces de usuário e layouts de dispositivos. Por exemplo, use a imagem de um dispositivo com o Gemini 1.0 Pro Vision para receber instruções sobre como usá-lo. |
Entender os diagramas técnicos | Decifre um diagrama de relacionamento de entidades (ER), entenda as relações entre tabelas, identifique requisitos de otimização em um ambiente específico como o BigQuery. |
Fazer uma recomendação com base em várias imagens | Use fotos de óculos para receber uma recomendação sobre o que se encaixa melhor no seu rosto. |
Gerar uma descrição do vídeo | Detectar o que é mostrado em um vídeo. Por exemplo, inclua um vídeo de um destino de férias e encontre uma descrição dele, as cinco principais coisas para fazer e sugestões de como chegar lá. |
Para saber mais sobre como criar comandos para vários usos, consulte as seguintes páginas:
- Comandos multimodais
- Solicitações de texto
- Solicitações de chat
- Programar solicitações de chat
- Solicitações de geração de código
Consulte também: Pontos fortes e limitações do modelo
SDKs de linguagem de programação
A API Vertex AI Gemini oferece suporte aos seguintes SDKs:
Python
from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")
response = model.generate_content(["What is this?", img])
Node.js
// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});
const result = await model.generateContent([
"What is this?",
{inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);
Java
public static void main(String[] args) throws Exception {
try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
List<Content> contents = new ArrayList<>();
contents.add(ContentMaker
.fromMultiModalData(
"What is this?",
PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
GenerateContentResponse response = model.generateContent(contents);
}
}
}
Go
model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)
Qual é a diferença da API Google AI Gemini
A API Vertex AI Gemini e a API Google AI Gemini permitem incorporar os recursos dos modelos do Gemini aos aplicativos. A plataforma certa depende dos seus objetivos.
A API Vertex AI Gemini foi projetada para desenvolvedores e empresas para uso em implantações escalonadas. Ela oferece recursos como segurança empresarial, residência de dados, desempenho e suporte técnico. Se você já é um cliente do Google Cloud ou implanta aplicativos de média a grande escala, está no lugar certo.
Se você é um hobby, estudante ou desenvolvedor iniciante no Google Cloud, teste a API Google AI Gemini, que é adequada para experimentação, prototipagem e pequenas implantações. Se você está procurando uma maneira de usar o Gemini diretamente dos seus apps para dispositivos móveis e da Web, consulte os SDKs da IA do Google para Android, Swift e Web.
Documentação da API Vertex AI Gemini
Selecione um dos tópicos a seguir para saber mais sobre a API Vertex AI Gemini.
Começar a usar a API Vertex AI Gemini
-
Configuração do Google Cloud
Se você for iniciante no Google Cloud, siga as etapas de configuração nesta página para começar logo.
-
Classes do SDK do Python para a API Gemini
Saiba mais sobre as classes fornecidas pelo SDK do Python para a API Vertex AI Gemini, incluindo atributos, métodos e exemplos de uso.
-
Referência do SDK do Python
Confira a referência completa de IA generativa para o SDK da Vertex AI para Python.
Migrar para a API Vertex AI Gemini
-
Migrar da IA do Google para a Vertex AI
Saiba como migrar seu código Python da API Google AI Gemini para a API Vertex AI Gemini.
-
Migrar da API PaLM para a API Gemini
Saiba como migrar seu código Python da API PaLM da Vertex AI para a API Vertex AI Gemini.
Aprenda a usar os principais recursos
-
Enviar solicitações multimodais
Saiba como enviar solicitações multimodais usando o Console do Cloud, o SDK do Python ou a API REST.
-
Enviar solicitações de chat
Saiba como enviar solicitações de chat de um turno ou multiturno usando o Console do Cloud, o SDK do Python ou a API REST.
-
Chamadas de função
Saiba como fazer com que o modelo produza JSON para chamar funções externas.