APIs da Vertex AI para criar experiências de pesquisa e RAG

A Vertex AI oferece um pacote de APIs para ajudar você a criar seus próprios aplicativos de Geração Aumentada de Recuperação (RAG, na sigla em inglês) ou seu próprio mecanismo de pesquisa. Esta página apresenta essas APIs.

Recuperação e geração

A RAG é uma metodologia que permite que os modelos de linguagem grandes (LLMs) gerem respostas com base na sua fonte de dados. Há duas etapas no RAG:

  1. Remoção: encontrar rapidamente os fatos mais relevantes pode ser um problema comum de pesquisa. Com a RAG, você pode recuperar rapidamente os fatos que são importantes para gerar uma resposta.
  2. Geração:o LLM usa os fatos recuperados para gerar uma resposta fundamentada.

A Vertex AI oferece opções para os dois estágios para atender a várias necessidades de desenvolvedores.

As opções de recuperação incluem a Vertex AI, a criação de um retriever, o LlamaIndex na Vertex AI, a importação de um retriever e a Pesquisa Google. As opções de geração incluem a API Grounded Generation e o Gemini.

Recuperação

Escolha o melhor método de recuperação para suas necessidades:

  • Vertex AI para Pesquisa:é um mecanismo de recuperação de informações com a qualidade da Pesquisa Google que pode ser um componente de qualquer aplicativo de IA generativa que usa dados corporativos. A Vertex AI para Pesquisa funciona como um mecanismo de pesquisa semântica e de palavras-chave pronto para uso em RAG, com a capacidade de processar vários tipos de documento e com conectores para vários sistemas de origem, incluindo o BigQuery e muitos sistemas de terceiros.

    Para mais informações, consulte Vertex AI para Pesquisa.

  • Crie sua própria recuperação:se você quiser criar sua pesquisa semântica, use as APIs da Vertex AI para componentes do seu sistema RAG personalizado. Esse pacote de APIs oferece implementações de alta qualidade para análise de documentos, geração de embedding, pesquisa de vetor e classificação semântica. O uso dessas APIs de nível inferior oferece flexibilidade total no design do retriever e, ao mesmo tempo, oferece tempo de lançamento acelerado e alta qualidade recorrendo a APIs de nível inferior da Vertex AI.

    Para mais informações, consulte Crie sua própria geração aumentada de recuperação.

  • Trazer uma recuperação existente:você pode usar sua pesquisa atual como um recuperador para geração com base. Também é possível usar as APIs da Vertex para RAG para melhorar a qualidade da sua pesquisa atual.

  • LlamaIndex na Vertex AI:o LlamaIndex na Vertex AI permite que desenvolvedores familiarizados com esse framework de software de código aberto (OSS, na sigla em inglês) criem retrievers para uso na produção e em um contexto pronto para uso empresarial.

    Para mais informações, consulte Visão geral do LlamaIndex na Vertex AI para RAG na documentação da IA generativa na Vertex AI.

  • Pesquisa Google:quando você usa o Embasamento com a Pesquisa Google para seu modelo do Gemini, o Gemini usa a Pesquisa Google e gera uma saída com base nos resultados de pesquisa relevantes. Esse método de recuperação não exige gerenciamento e você tem acesso a todo o conhecimento disponível para o Gemini.

    Para mais informações, consulte Como usar a Pesquisa Google na documentação da IA generativa na Vertex AI.

Geração

Escolha o melhor método de geração para suas necessidades:

  • API Grounded Generation (GA com lista de permissões): use a API Grounded Generation para gerar respostas bem fundamentadas à consulta de um usuário. Essa API usa um modelo Gemini especializado e ajustado, e é uma maneira eficaz de reduzir alucinações e fornecer respostas com base em suas fontes, fontes de terceiros ou na Pesquisa Google, incluindo referências a conteúdo de suporte.

    Para mais informações, consulte Gerar respostas fundamentadas.

  • Gemini:o modelo mais eficiente do Google, que oferece base para a Pesquisa Google. Você pode usá-la para criar sua solução de geração de base totalmente personalizada.

    Para mais informações, consulte Como usar a Pesquisa Google na documentação da IA generativa na Vertex AI.

  • Model Garden:se você quiser controle total e o modelo de sua escolha, use qualquer um dos modelos no Model Garden da Vertex AI para geração.

Crie sua própria Geração Aumentada de Recuperação

O desenvolvimento de um sistema RAG personalizado para aterramento oferece flexibilidade e controle em cada etapa do processo. A Vertex AI oferece um pacote de APIs para ajudar você a criar suas próprias soluções de pesquisa. O uso dessas APIs oferece total flexibilidade no design do seu aplicativo RAG, além de oferecer um tempo de lançamento mais rápido e alta qualidade ao depender dessas APIs de nível inferior da Vertex AI.

A Vertex AI oferece APIs para processamento e anotação, embedding, indexação e recuperação, classificação, geração com base em dados e validação.

  • O analisador de layout da Document AI. O Document AI Layout Parser transforma documentos em vários formatos em representações estruturadas, tornando o conteúdo acessível, como parágrafos, tabelas, listas e elementos estruturais, como títulos, cabeçalhos de página e rodapés, e criando blocos com reconhecimento de contexto que facilitam a recuperação de informações em vários apps de IA generativa e de descoberta.

    Para mais informações, consulte Document AI Layout Parser na documentação da Document AI.

  • API Embeddings:as APIs de embeddings da Vertex AI permitem criar embeddings para entradas de texto ou multimodais. Os embeddings são vetores de números de ponto flutuante projetados para capturar o significado da entrada. É possível usar os embeddings para melhorar a pesquisa semântica usando a pesquisa vetorial.

    Para mais informações, consulte Embeddings de texto e Embeddings multimodais na documentação da IA generativa na Vertex AI.

  • Pesquisa vetorial. O mecanismo de recuperação é uma parte importante do RAG ou do aplicativo de pesquisa. O Vertex AI Vector Search é um motor de recuperação que pode pesquisar em bilhões de itens semanticamente semelhantes ou semanticamente relacionados em grande escala, com altas consultas por segundo (QPS), alto recall, baixa latência e eficiência de custos. Ela pode pesquisar em embeddings densos e oferece suporte à pesquisa de palavras-chave de embeddings esparsos e à pesquisa híbrida na pré-visualização pública.

    Para mais informações, consulte a Visão geral da pesquisa de vetores da Vertex AI na documentação da Vertex AI.

  • A API de classificação. A API de classificação recebe uma lista de documentos e os classifica novamente com base na relevância deles para uma determinada consulta. Em comparação com informações incorporadas que analisam apenas a semelhança semântica de um documento e uma consulta, a API de classificação pode fornecer uma pontuação mais precisa sobre a capacidade de um documento responder a uma determinada consulta.

    Para mais informações, consulte Classificar e reclassificar documentos.

  • A API grounded generation. Use a API de geração de informações para gerar respostas bem fundamentadas para uma solicitação do usuário. As fontes de embasamento podem ser seus repositórios de dados da Vertex AI para Pesquisa, dados personalizados fornecidos por você ou a Pesquisa Google.

    Para mais informações, consulte Gerar respostas fundamentadas.

  • A API check grounding. A API de verificação de fundamentação determina o nível de fundamentação de um determinado texto em um conjunto de textos de referência. A API pode gerar citações de apoio do texto de referência para indicar onde o texto em questão é aceito pelos textos de referência. Entre outras coisas, a API pode ser usada para avaliar a base das respostas de um sistema RAG. Além disso, como um recurso experimental, a API também gera citações contraditórias que mostram onde o texto e os textos de referência divergem.

    Para mais informações, consulte Verificar o embasamento.

Fluxo de trabalho: gerar respostas fundamentadas com dados não estruturados

Confira um fluxo de trabalho que descreve como integrar as APIs RAG da Vertex AI para gerar respostas com base em dados não estruturados.

  1. Importe seus documentos não estruturados, como arquivos PDF, HTML ou imagens com texto, para um local do Cloud Storage.
  2. Processe os documentos importados usando o analisador de layout. O analisador de layout divide os documentos não estruturados em partes e transforma o conteúdo não estruturado na representação estruturada. O analisador de layout também extrai anotações dos blocos.
  3. Crie embeddings de texto para blocos usando a API Text embeddings da Vertex AI.
  4. Indexe e extraia as embeddings de fragmento usando a pesquisa vetorial.
  5. Classifique os blocos usando a API de classificação e determine os blocos com a classificação mais alta.
  6. Gerar respostas com base em dados com base nos blocos de classificação mais alta usando a API Grounded Generation.

Se você gerou as respostas usando um modelo de geração de respostas diferente dos modelos do Google, é possível verificar o embasamento dessas respostas usando o método de verificação de embasamento.