Faturamento do mecanismo de RAG da Vertex AI

Nesta página, descrevemos os preços e o faturamento do mecanismo RAG da Vertex AI com base nos componentes usados, como modelos, reclassificação e armazenamento de vetores.

Para mais informações, consulte a página Visão geral do mecanismo de RAG da Vertex AI.

Preços e faturamento

O mecanismo de RAG da Vertex AI pode ser usado sem custos financeiros. No entanto, se você configurar os componentes do mecanismo RAG da Vertex AI, o faturamento poderá ser afetado.

Esta tabela explica como funciona o faturamento ao usar os componentes de RAG.

Componente Como funciona o faturamento com o mecanismo de RAG da Vertex AI
Ingestão de dados O mecanismo de RAG da Vertex AI permite ingerir dados de diferentes fontes. Por exemplo, fazer upload de arquivos locais, do Cloud Storage e do Google Drive. O acesso a arquivos nessas fontes de dados pelo mecanismo RAG da Vertex AI é gratuito, mas elas podem cobrar pela transferência de dados. Por exemplo, custos de saída de dados.
Transformação de dados (análise de arquivos)
  • Parser padrão: gratuito.
  • Analisador de LLM: o mecanismo RAG da Vertex AI usa o modelo de LLM especificado para analisar seu arquivo. Os custos do modelo de LLM aparecem e são pagos diretamente do seu projeto.
  • Analisador de layout da Document AI: o mecanismo de RAG da Vertex AI usa o analisador de layout da Document AI especificado para processar seu arquivo. O uso dele vai aparecer e ser cobrado diretamente no seu projeto.
Transformação de dados (divisão de arquivos) Aceita divisão em partes de tamanho fixo, que é gratuita.
Geração de embeddings O mecanismo RAG da Vertex AI organiza a geração de embeddings usando o modelo especificado, e seu projeto é cobrado pelos custos associados a esse modelo.

Para mais informações sobre preços, consulte Custo de criação e implantação de modelos de IA na Vertex AI.

Indexação e recuperação de dados O mecanismo RAG oferece suporte a duas categorias de bancos de dados de vetores para pesquisa vetorial:
  • Banco de dados gerenciado por RAG
  • Use seu próprio banco de dados de vetores

Um banco de dados gerenciado por RAG tem duas finalidades:
  • Um banco de dados gerenciado pela RAG armazena recursos da RAG, como corpus e arquivos da RAG. O conteúdo do arquivo é excluído.
  • De acordo com sua escolha, indexação e recuperação de embeddings para pesquisa vetorial.

Um banco de dados gerenciado por RAG usa uma instância do Spanner como back-end.

Para cada um dos seus projetos, o mecanismo de RAG da Vertex AI provisiona um projeto Google Cloud específico do cliente e gerencia recursos gerenciados pela RAG armazenados no mecanismo de RAG da Vertex AI, para que seus dados sejam isolados fisicamente.

Se você escolher o nível básico RagManagedDB ou o nível escalonado, o mecanismo RAG da Vertex AI vai provisionar uma instância da edição Enterprise do Spanner no projeto correspondente:

  • Nível básico: 100 unidades de processamento com backup
  • Nível escalonado: começa com 1 nó (1.000 unidades de processamento) e faz escalonamento automático para até 10 nós com backup.

Se algum corpus de RAG no seu projeto usar um banco de dados gerenciado por RAG para a pesquisa vetorial, você vai receber uma cobrança pela instância do Spanner gerenciada por RAG.

O mecanismo de RAG da Vertex AI mostra os custos do Spanner do projeto gerenciado por RAG correspondente no seu projeto Google Cloud para que você possa ver e pagar os custos da instância do Spanner.

Para mais detalhes sobre os preços do Spanner, consulte Preços do Spanner.

Reclassificação para o mecanismo de RAG da Vertex AI As seguintes ferramentas de classificação são compatíveis após a recuperação:
  • LLM Reranker: o mecanismo de RAG da Vertex AI usa o modelo de LLM especificado para reclassificar os resultados da recuperação, e você vai ver e pagar os custos do modelo de LLM diretamente do seu projeto.
  • API Vertex AI Search Ranking: o mecanismo RAG da Vertex AI usa a API Vertex AI Search Ranking para reclassificar os resultados da recuperação. Você vai ver e pagar pela API Ranking diretamente do seu projeto.

A seguir