Visão geral da IA generativa na Vertex AI

A IA generativa na Vertex AI (também conhecida como genAI ou gen AI) oferece acesso a muitos modelos grandes de IA generativa para que seja possível avaliá-los, ajustá-los e implantá-los para uso em aplicativos com tecnologia de IA. Nesta página, apresentamos uma visão geral do fluxo de trabalho de IA generativa na Vertex AI, os recursos e modelos disponíveis e direciona você aos recursos para começar.

Fluxo de trabalho da IA generativa

No diagrama a seguir, mostramos uma visão geral de alto nível do fluxo de trabalho da IA generativa.

Diagrama do fluxo de trabalho da IA generativa

Comando

Comando

O fluxo de trabalho da IA generativa geralmente começa com solicitações. Um comando é uma solicitação enviada a um modelo de IA generativa para conseguir uma resposta. Dependendo do modelo, um comando pode conter texto, imagens, vídeos, áudio, documentos e outras modalidades, ou até mesmo várias modalidades (multimodais).

Criar um comando para receber a resposta desejada do modelo é uma prática chamada design de comandos. Embora o design de prompts seja um processo de tentativa e erro, há princípios e estratégias que podem ser usados para fazer com que o modelo se comporte da maneira desejada. O Vertex AI Studio oferece uma ferramenta de gestão de comandos para ajudar você a gerenciá-los.

Modelos de fundação

Modelos de fundação

Os comandos são enviados a um modelo de IA generativa para geração de respostas. A Vertex AI tem vários modelos de fundação de IA generativa acessíveis por uma API, incluindo estes:

  • API Gemini: raciocínio avançado, chat com vários turnos, geração de código e comandos multimodais.
  • API Imagen: geração de imagens, edição de imagens e legendagem visual.
  • MedLM: resposta e resumo de perguntas médicas. (Disponibilidade geral particular)

Os modelos diferem em tamanho, modalidade e custo. Conheça os modelos do Google, bem como os de parceiros do Google, no Model Garden.

Personalização de modelos

Personalização de modelos

É possível personalizar o comportamento padrão dos modelos básicos do Google para que eles gerem de maneira consistente os resultados desejados sem usar solicitações complexas. Esse processo de personalização é chamado de ajuste do modelo. O ajuste de modelo ajuda a reduzir o custo e a latência das solicitações, o que simplifica as solicitações.

A Vertex AI também oferece ferramentas de avaliação de modelos para ajudar você a avaliar o desempenho do modelo ajustado. Depois que o modelo ajustado estiver pronto para produção, será possível implantá-lo em um endpoint e monitorar o desempenho como em fluxos de trabalho MLOps padrão.

Aumento de solicitações

Aumento

A Vertex AI oferece vários métodos de aumento de solicitações que dão ao modelo acesso a APIs externas e informações em tempo real.

  • Embasamento: conecta as respostas do modelo a uma fonte da verdade, como seus próprios dados ou a pesquisa na Web, o que ajuda a reduzir as alucinações.
  • RAG: conecta modelos a fontes de conhecimento externas, como documentos e bancos de dados, para gerar respostas mais precisas e informativas.
  • Chamada de função: permite que o modelo interaja com APIs externas para receber informações em tempo real e realizar tarefas reais.

Verificação da citação

Verificação da citação

Depois que a resposta é gerada, a Vertex AI verifica se as citações precisam ser incluídas nela. Se uma parte significativa do texto na resposta vier de uma fonte específica, essa fonte será adicionada aos metadados de citação na resposta.

IA e segurança responsáveis

IA e segurança responsáveis

A última camada de verificações que a solicitação e a resposta passam antes de serem retornadas são os filtros de segurança. A Vertex AI verifica a solicitação e a resposta para saber quanto ela pertence a uma categoria de segurança. Se o limite for excedido para uma ou mais categorias, a resposta será bloqueada e a Vertex AI vai retornar uma resposta alternativa.

Resposta

Resposta

Se a solicitação e a resposta forem aprovadas nas verificações do filtro de segurança, a resposta será retornada. Normalmente, a resposta é retornada de uma só vez. No entanto, você também pode receber respostas progressivamente conforme elas são geradas ativando o streaming.

APIs e modelos de IA generativa

Os modelos de IA generativa disponíveis na Vertex AI, também conhecidos como modelos de fundação, são categorizados pelo tipo de conteúdo que ele foi projetado para gerar. Esse conteúdo inclui texto, chat, imagem, código, vídeo, dados multimodais e embeddings. Cada modelo é exposto por meio de um endpoint do editor específico para seu projeto do Google Cloud. Por isso, não é necessário implantar o modelo de fundação, a menos que você precise ajustá-lo para um caso de uso específico.

Ofertas da API Gemini

A API Vertex AI Gemini contém os endpoints do editor para os modelos Gemini desenvolvidos pelo Google DeepMind.

  • O Gemini 1.5 Pro (pré-lançamento) é compatível com comandos multimodais. É possível incluir texto, imagens, áudio, vídeo e arquivos PDF nas solicitações de comando e receber respostas de texto ou código. O Gemini 1.5 Pro (pré-lançamento) pode processar coleções maiores de imagens, documentos de texto maiores e vídeos mais longos do que o Gemini 1.0 Pro Vision.
  • O Gemini 1.0 Pro foi projetado para lidar com tarefas de linguagem natural, chat de código e texto com vários turnos e geração de código.
  • Gemini 1.0 Pro Vision: oferece suporte a solicitações multimodais. É possível incluir texto, imagens, vídeo e PDFs nas suas solicitações de comando e receber respostas de texto ou código.

A tabela a seguir mostra algumas diferenças entre os modelos do Gemini que podem ajudar você a escolher a opção ideal:

Modelo do Gemini Modalidades Janela de contexto
Gemini 1.0 Pro / Gemini 1.0 Pro Vision
  • Texto, código, PDF (Gemini 1.0 Pro Vision)
  • Até 16 imagens
  • Vídeo de até 2 minutos
  • 8.192 tokens de entrada
  • 2.048 tokens de saída
Gemini 1.5 Pro (Pré-lançamento)
  • Texto, código, imagens, áudio, vídeo e PDF
  • Até 3.000 imagens
  • Áudio de até 8,4 horas
  • Vídeo com áudio de até 1 hora
  • 1 milhão de tokens de entrada
  • 8.192 tokens de saída

Ofertas da API PaLM

A API PaLM da Vertex AI contém os endpoints do editor para o Pathways Language Model 2 (PaLM 2) do Google, que são modelos de linguagem grandes (LLMs) que geram texto e código em resposta a comandos de linguagem natural.

  • A API PaLM for text é ajustada para tarefas de linguagem, como classificação, resumo e extração de entidades.
  • A API PaLM para chat é ajustada para o chat multiturno, em que o modelo monitora as mensagens anteriores no chat e as usa como contexto para gerar novas respostas.

Outras ofertas de IA generativa

  • O embedding de texto gera embeddings de vetores para o texto de entrada. É possível usar embeddings para tarefas como pesquisa semântica, recomendação, classificação e detecção de outliers.

  • O embedding multimodal gera embeddings de vetores com base em entradas de imagem e texto. Esses embeddings podem ser usados mais tarde para outras tarefas subsequentes, como classificação de imagens ou recomendações de conteúdo.

  • O Imagen, nosso modelo de fundação de texto para imagem, permite gerar e personalizar imagens do Studio em escala.

  • Os modelos de parceiros são uma lista selecionada de modelos de IA generativa desenvolvidos por empresas parceiras do Google. Esses modelos de IA generativa são oferecidos como APIs gerenciadas. Por exemplo, a Anthropic fornece seus modelos do Claude como um serviço na Vertex AI.

  • Os modelos abertos, como o Llama, estão disponíveis para implantação na Vertex AI ou em outras plataformas.

  • O MedLM é uma família de modelos de fundação ajustados para o setor de saúde.

Certificações e controles de segurança

A Vertex AI é compatível com CMEK, VPC Service Controls, residência de dados e transparência no acesso. Há algumas limitações para recursos de IA generativa. Para mais informações, consulte Controles de segurança da IA generativa.

Começar