-
Teste a API Gemini na Vertex AI
Comece criando uma conta do Google Cloud. Além disso, novos clientes ganham US $300 em créditos para explorar o que o Gemini pode fazer.
-
Referência do SDK do Python para a API Gemini na Vertex AI
Consulte a referência completa da IA generativa para o SDK do Python para Vertex AI.
-
Design de solicitações multimodais
Conheça as práticas recomendadas para criar solicitações multimodais e confira os exemplos de solicitações.
Modelos multimodais do Gemini
Um modelo multimodal é aquele capaz de processar informações de várias modalidades, incluindo imagens, vídeos e texto. Por exemplo, é possível enviar para o modelo a foto de um prato de cookies e pedir a receita deles.
Modelos do Gemini
Os seguintes modelos do Gemini estão disponíveis:
- Gemini 1.5 Flash: o modelo multimodal mais rápido e econômico do Genmini. Ele foi criado para tarefas de baixo custo e alto volume e aplicativos sensíveis à latência. Como o Gemini 1.5 Flash é mais responsivo do que outros modelos mais caros, ele é uma boa opção para criar assistentes de chat e aplicativos de geração de conteúdo sob demanda.
- Gemini 1.5 Pro: (pré-lançamento) criado para ser multimodal (texto, imagens, áudio, PDFs, código, vídeos) e para escalonamento em uma ampla variedade de tarefas com até 1 milhão de tokens de entrada.
- Gemini Pro 1.0: desenvolvido para tarefas de linguagem natural, chat com vários turnos, texto e código e geração de código.
- Gemini 1.0 Pro Vision: oferece suporte a solicitações multimodais. É possível incluir texto, imagens e vídeo nas solicitações e receber respostas de texto ou código.
Casos de uso do Gemini 1.5 Pro e Gemini 1.5 Flash
O Gemini 1.5 Pro e o Gemini 1.5 Flash oferecem suporte à geração de texto de um prompt que inclui uma das seguintes modalidades ou uma combinação delas: texto, código, PDFs, imagens, áudio e vídeo. Os casos de uso incluem, mas não são limitados a, entre outros:
Caso de uso | Descrição |
---|---|
Resumo | Resumo: crie uma versão mais curta de um documento que incorpore informações pertinentes do texto original. Por exemplo, é possível resumir um capítulo de um livro didático. Também é possível criar uma descrição sucinta do produto a partir de um parágrafo longo que descreva o produto em detalhes. |
Busca de informações visuais | Use conhecimento externo combinado com informações extraídas da imagem ou do vídeo de entrada para responder às perguntas. |
Reconhecimento de objetos | Responda a perguntas relacionadas à identificação detalhada dos objetos em imagens e vídeos. |
Compreensão do conteúdo digital | Responda a perguntas e extraia informações de conteúdos visuais, como infográficos, gráficos, figuras, tabelas e páginas da Web. |
Geração de conteúdo estruturado | Gere respostas com base em entradas multimodais em formatos como HTML e JSON. |
Legendas e descrição | Gere descrições de imagens e vídeos com vários níveis de detalhes. |
Conteúdo de longa duração | É possível processar conteúdo de formato longo, com até 1 milhão de tokens, incluindo texto, código, imagem, vídeo e áudio. |
Raciocínio | Inferir de maneira composicional novas informações sem memorização ou recuperação. |
Áudio | Analise arquivos de fala para resumo, transcrição e perguntas e respostas. |
O áudio e o vídeo | Resuma um arquivo de vídeo com áudio e retorne os capítulos com marcações de tempo. |
Processamento multimodal | Processe vários tipos de mídia de entrada ao mesmo tempo, como entrada de vídeo e áudio. |
Casos de uso do Gemini 1.0 Pro
O Gemini 1.0 Pro oferece suporte à geração de texto e código a partir de um comando de texto. Os casos de uso incluem, entre outros:
Caso de uso | Descrição |
---|---|
Resumo | Resumo: crie uma versão mais curta de um documento que incorpore informações pertinentes do texto original. Por exemplo, é possível resumir um capítulo de um livro didático. Também é possível criar uma descrição sucinta do produto a partir de um parágrafo longo que descreva o produto em detalhes. |
Respostas a perguntas | Responda às perguntas em texto. Por exemplo, é possível automatizar a criação de um documento de Perguntas frequentes a partir do conteúdo da base de conhecimento. |
Compreensão do conteúdo digital | Atribua um rótulo ao texto fornecido. Por exemplo, um rótulo pode ser aplicado a textos que descrevem como ele é gramaticalmente correto. |
Classificação | Atribua um rótulo que descreva o texto fornecido. Por exemplo, aplique rótulos que descrevam se um bloco de texto está gramaticalmente correto. |
Busca de informações | Combine conhecimento mundial com informações extraídas de imagens e vídeos. |
Reconhecimento de objetos | Responda a perguntas relacionadas à identificação detalhada dos objetos em imagens e vídeos. |
Análise de sentimento | É uma forma de classificação que identifica o sentimento do texto. O sentimento é transformado em um rótulo aplicado ao texto. Por exemplo, o sentimento do texto pode ser polaridades positivas ou negativas, sentimentos de raiva ou felicidade. |
Extração de entidades | Gere textos especificando um conjunto de requisitos e um plano de fundo. Por exemplo, talvez você queira redigir um e-mail em um determinado contexto usando um determinado tom. |
Geração de códigos | Gerar código com base em uma descrição. Por exemplo, é possível pedir ao modelo para escrever uma função que verifica se um ano é bissexto. |
Casos de uso do Gemini 1.0 Pro Vision
O Gemini 1.0 Pro Vision oferece suporte à geração de texto usando texto, imagens e vídeo como entrada. Os casos de uso incluem, entre outros:
Caso de uso | Descrição |
---|---|
Busca de informações | Combine conhecimento mundial com informações extraídas de imagens e vídeos. |
Reconhecimento de objetos | Responda a perguntas relacionadas à identificação detalhada dos objetos em imagens e vídeos. |
Compreensão do conteúdo digital | Responda a perguntas extraindo informações do conteúdo, como infográficos, gráficos, figuras, tabelas e páginas da Web. |
Geração de conteúdo estruturado | Gere respostas em formatos como HTML e JSON com base nas instruções de solicitação fornecidas. |
Legendas / descrição | Gere descrições de imagens e vídeos com vários níveis de detalhes. |
Extrapolação | Faça suposições sobre o que não é mostrado em uma imagem ou o que acontece antes ou depois de um vídeo. |
Detecção de objetos em fotos | Detecta um objeto em uma imagem e retorna uma descrição em texto do objeto. |
Retornar informações sobre itens em uma imagem | Use uma imagem que contenha vários itens de mercado para que o Gemini 1.0 Pro Vision possa retornar uma estimativa de quanto você precisa pagar por eles. |
Entender as telas e interfaces | Extraia informações de telas, interfaces de usuário e layouts de dispositivos. Por exemplo, use a imagem de um dispositivo com o Gemini 1.0 Pro Vision para receber instruções sobre como usá-lo. |
Entender os diagramas técnicos | Decifre um diagrama de relacionamento de entidades (ER), entenda as relações entre tabelas, identifique requisitos de otimização em um ambiente específico como o BigQuery. |
Fazer uma recomendação com base em várias imagens | Use fotos de óculos para receber uma recomendação sobre o que se encaixa melhor no seu rosto. |
Gerar uma descrição do vídeo | Detectar o que é mostrado em um vídeo. Por exemplo, inclua um vídeo de um destino de férias e encontre uma descrição dele, as cinco principais coisas para fazer e sugestões de como chegar lá. |
Para saber mais sobre como criar comandos para vários usos, consulte as seguintes páginas:
- Comandos multimodais
- Solicitações de texto
- Solicitações de chat
- Programar solicitações de chat
- Solicitações de geração de código
Consulte também: Limitações multimodais.
SDKs de linguagem de programação
A API Vertex AI Gemini fornece SDKs nas seguintes linguagens:
Python
O SDK do Python é fornecido no pacote vertexai
.
from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")
response = model.generate_content(["What is this?"])
Node.js
O SDK da Vertex AI para Node.js permite usar a API Gemini na Vertex AI para criar recursos e aplicativos com tecnologia de IA.
// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});
const result = await model.generateContent([
"What is this?",
{inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);
Java
A API Vertex AI para Java é fornecida no artefato google-cloud-vertexai
.
public static void main(String[] args) throws Exception {
try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
List<Content> contents = new ArrayList<>();
contents.add(ContentMaker
.fromMultiModalData(
"What is this?",
PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
GenerateContentResponse response = model.generateContent(contents);
}
}
Go
O SDK do Go é fornecido no pacote cloud.google.com/go/vertexai
.
model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)
Quais são as diferenças entre a API Gemini ea API Gemini no Google AI Studio
A API Gemini na Vertex AI e a API Gemini no Google AI Studio permitem incorporar os recursos dos modelos do Gemini aos seus aplicativos. A plataforma certa depende dos seus objetivos.
A API Vertex AI Gemini foi projetada para desenvolvedores e empresas para uso em implantações escalonadas. Ela oferece recursos como segurança empresarial, residência de dados, desempenho e suporte técnico. Se você já é um cliente do Google Cloud ou implanta aplicativos de média a grande escala, está no lugar certo.
Se você é um hobby, estudante ou desenvolvedor iniciante no Google Cloud, teste a API Google AI Gemini, que é adequada para experimentação, prototipagem e pequenas implantações. Se você está procurando uma maneira de usar o Gemini diretamente dos seus apps para dispositivos móveis e da Web, consulte os SDKs da IA do Google para Android, Swift e Web.
Documentação da API Vertex AI Gemini
Selecione um dos tópicos a seguir para saber mais sobre a API Vertex AI Gemini.
Começar a usar a API Vertex AI Gemini
-
Configuração do Google Cloud
Se você for iniciante no Google Cloud, siga as etapas de configuração nesta página para começar logo.
-
Visão geral da IA generativa na Vertex AI
Saiba mais sobre os fluxos de trabalho de IA generativa, os modelos disponíveis e como começar a criar seu app de IA generativa.
-
Crie comandos para o Gemini no Vertex AI Studio
Use o Vertex AI Studio para criar, testar e personalizar seus comandos multimodais do Gemini.
Migrar para a API Vertex AI Gemini
-
Migrar do Azure OpenAI para a Vertex AI
Saiba como migrar seu código Python do Azure OpenAI para a API Vertex AI Gemini.
-
Migrar da IA do Google para a Vertex AI
Saiba como migrar seu código Python da API Google AI Gemini para a API Vertex AI Gemini.
-
Migrar da API PaLM para a API Gemini
Saiba como migrar seu código Python da API PaLM da Vertex AI para a API Vertex AI Gemini.
Aprenda a usar os principais recursos
-
Enviar solicitações multimodais
Saiba como enviar solicitações multimodais usando o Console do Cloud, o SDK do Python ou a API REST.
-
Enviar solicitações de chat
Saiba como enviar solicitações de chat de um turno ou multiturno usando o Console do Cloud, o SDK do Python ou a API REST.
-
Chamadas de função
Saiba como fazer com que o modelo produza JSON para chamar funções externas.