Nesta página, mostramos como conectar o mecanismo RAG à pesquisa vetorial da Vertex AI.
Você também pode seguir este notebook Mecanismo RAG com a Vertex AI Vector Search.
O RAG Engine é uma ferramenta poderosa que usa um banco de dados vetorial integrado alimentado pelo Spanner para armazenar e gerenciar representações vetoriais de documentos de texto. O banco de dados de vetores permite a recuperação eficiente de documentos relevantes com base na semelhança semântica dos documentos com uma determinada consulta. Ao integrar a pesquisa vetorial da Vertex AI como um banco de dados vetorial adicional com o mecanismo RAG, você pode usar os recursos da pesquisa vetorial para processar volumes de dados com baixa latência e melhorar o desempenho e a escalabilidade dos seus aplicativos RAG.
Configuração da pesquisa de vetor da Vertex AI
A pesquisa vetorial da Vertex AI é baseada na tecnologia de pesquisa vetorial desenvolvida pela pesquisa do Google. Com a Pesquisa de vetor, é possível usar a mesma infraestrutura que fornece uma base para os produtos do Google, como a Pesquisa Google, o YouTube e o Google Play.
Para integrar com o RAG Engine, é necessário um índice de pesquisa de vetor vazio.
Configurar o SDK da Vertex AI
Para configurar o SDK da Vertex AI, consulte Configuração.
Criar índice de pesquisa de vetor
Para criar um índice de pesquisa de vetor compatível com seu corpus RAG, o índice precisa atender aos seguintes critérios:
IndexUpdateMethod
precisa serSTREAM_UPDATE
. Consulte Criar índice de fluxo.O tipo de medida de distância precisa ser definido explicitamente como um dos seguintes:
DOT_PRODUCT_DISTANCE
COSINE_DISTANCE
A dimensão do vetor precisa ser consistente com o modelo de embedding que você planeja usar no corpus de RAG. Outros parâmetros podem ser ajustados com base nas suas escolhas, que determinam se os parâmetros adicionais podem ser ajustados.
Python
Para saber como instalar o SDK da Vertex AI para Python, consulte Instalar o SDK da Vertex AI para Python. Para mais informações, consulte a documentação de referência da API Python.
Criar endpoint de índice da Pesquisa de vetor
Os endpoints públicos têm suporte do RAG Engine.
Python
Para saber como instalar o SDK da Vertex AI para Python, consulte Instalar o SDK da Vertex AI para Python. Para mais informações, consulte a documentação de referência da API Python.
Implantar um índice em um endpoint de índice
Antes de fazer a pesquisa de vizinho mais próximo, o índice precisa ser implantado em um endpoint de índice.
Python
Para saber como instalar o SDK da Vertex AI para Python, consulte Instalar o SDK da Vertex AI para Python. Para mais informações, consulte a documentação de referência da API Python.
Se for a primeira vez que você implantar um índice em um endpoint de índice, levará aproximadamente 30 minutos para que o back-end seja criado e iniciado automaticamente antes que o índice possa ser armazenado. Após a primeira implantação, o índice fica pronto em segundos. Para conferir o status da implantação do índice, abra o Console de pesquisa vetorial, selecione a guia Endpoints de índice e escolha o endpoint de índice.
Identifique o nome do recurso do índice e do endpoint do índice, que têm os seguintes formatos:
projects/${PROJECT_ID}/locations/${LOCATION_ID}/indexes/${INDEX_ID}
projects/${PROJECT_ID}/locations/${LOCATION_ID}/indexEndpoints/${INDEX_ENDPOINT_ID}
Usar a pesquisa de vetores da Vertex AI no RAG Engine
Depois que a instância da Pesquisa vetorial for configurada, siga as etapas desta seção para definir a instância da Pesquisa vetorial como o banco de dados vetorial para o aplicativo RAG.
Definir o banco de dados de vetores para criar um corpus RAG
Ao criar o corpus de RAG, especifique apenas o INDEX_ENDPOINT_NAME
e o
INDEX_NAME
completos. O corpus de RAG é criado e associado automaticamente ao índice de pesquisa vetorial. As validações são realizadas nos
critérios. Se algum dos requisitos não for atendido,
a solicitação será rejeitada.
Python
Antes de testar esse exemplo, siga as instruções de configuração para Python no Guia de início rápido da Vertex AI sobre como usar bibliotecas de cliente. Para mais informações, consulte a documentação de referência da API Vertex AI para Python.
Para autenticar na Vertex AI, configure o Application Default Credentials. Para mais informações, consulte Configurar a autenticação para um ambiente de desenvolvimento local.
REST
# TODO(developer): Update and un-comment the following lines:
# CORPUS_DISPLAY_NAME = "YOUR_CORPUS_DISPLAY_NAME"
# Full index/indexEndpoint resource name
# Index: projects/${PROJECT_ID}/locations/${LOCATION_ID}/indexes/${INDEX_ID}
# IndexEndpoint: projects/${PROJECT_ID}/locations/${LOCATION_ID}/indexEndpoints/${INDEX_ENDPOINT_ID}
# INDEX_RESOURCE_NAME = "YOUR_INDEX_ENDPOINT_RESOURCE_NAME"
# INDEX_NAME = "YOUR_INDEX_RESOURCE_NAME"
# Call CreateRagCorpus API to create a new RagCorpus
curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://${LOCATION_ID}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION_ID}/ragCorpora -d '{
"display_name" : '\""${CORPUS_DISPLAY_NAME}"\"',
"rag_vector_db_config" : {
"vertex_vector_search": {
"index":'\""${INDEX_NAME}"\"'
"index_endpoint":'\""${INDEX_ENDPOINT_NAME}"\"'
}
}
}'
# Call ListRagCorpora API to verify the RagCorpus is created successfully
curl -sS -X GET \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
"https://${LOCATION_ID}-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION_ID}/ragCorpora"
Importar arquivos usando a API RAG
Use a API ImportRagFiles
para importar
arquivos do Cloud Storage ou
do Google Drive para o índice de pesquisa vetorial. Os arquivos são incorporados e
armazenados no índice da Pesquisa de vetor.
REST
# TODO(developer): Update and uncomment the following lines:
# RAG_CORPUS_ID = "your-rag-corpus-id"
#
# Google Cloud Storage bucket/file location.
# For example, "gs://rag-fos-test/"
# GCS_URIS= "your-gcs-uris"
# Call ImportRagFiles API to embed files and store in the BigQuery table
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://us-central1-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/us-central1/ragCorpora/${RAG_CORPUS_ID}/ragFiles:import \
-d '{
"import_rag_files_config": {
"gcs_source": {
"uris": '\""${GCS_URIS}"\"'
},
"rag_file_chunking_config": {
"chunk_size": 512
}
}
}'
# Call ListRagFiles API to verify the files are imported successfully
curl -X GET \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
https://us-central1-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/us-central1/ragCorpora/${RAG_CORPUS_ID}/ragFiles
Python
Para saber como instalar o SDK da Vertex AI para Python, consulte Instalar o SDK da Vertex AI para Python. Para mais informações, consulte a documentação de referência da API Python.
Extrair contextos relevantes usando a API RAG
Após a conclusão das importações de arquivos, o contexto relevante pode ser recuperado do
índice de pesquisa vetorial usando a API RetrieveContexts
.
REST
# TODO(developer): Update and uncomment the following lines:
# RETRIEVAL_QUERY="your-retrieval-query"
#
# Full RAG corpus resource name
# Format:
# "projects/${PROJECT_ID}/locations/us-central1/ragCorpora/${RAG_CORPUS_ID}"
# RAG_CORPUS_RESOURCE="your-rag-corpus-resource"
# Call RetrieveContexts API to retrieve relevant contexts
curl -X POST \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
https://us-central1-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/us-central1:retrieveContexts \
-d '{
"vertex_rag_store": {
"rag_resources": {
"rag_corpus": '\""${RAG_CORPUS_RESOURCE}"\"',
},
},
"query": {
"text": '\""${RETRIEVAL_QUERY}"\"',
"similarity_top_k": 10
}
}'
Python
Para saber como instalar o SDK da Vertex AI para Python, consulte Instalar o SDK da Vertex AI para Python. Para mais informações, consulte a documentação de referência da API Python.
Gerar conteúdo usando a API Gemini da Vertex AI
Para gerar conteúdo usando modelos do Gemini, faça uma chamada para a
API GenerateContent
da Vertex AI. Ao especificar o
RAG_CORPUS_RESOURCE
na solicitação, a API recupera automaticamente os dados do
índice da Pesquisa vetorial.
REST
# TODO(developer): Update and uncomment the following lines:
# MODEL_ID=gemini-1.5-flash-001
# GENERATE_CONTENT_PROMPT="your-generate-content-prompt"
# GenerateContent with contexts retrieved from the FeatureStoreOnline index
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" https://us-central1-aiplatform.googleapis.com/v1beta1/projects/${PROJECT_ID}/locations/us-central1/publishers/google/models/${MODEL_ID}:generateContent \
-d '{
"contents": {
"role": "user",
"parts": {
"text": '\""${GENERATE_CONTENT_PROMPT}"\"'
}
},
"tools": {
"retrieval": {
"vertex_rag_store": {
"rag_resources": {
"rag_corpus": '\""${RAG_CORPUS_RESOURCE}"\"',
},
"similarity_top_k": 8,
"vector_distance_threshold": 0.32
}
}
}
}'
Python
Para saber como instalar o SDK da Vertex AI para Python, consulte Instalar o SDK da Vertex AI para Python. Para mais informações, consulte a documentação de referência da API Python.
A seguir
- Para saber mais sobre como escolher modelos de embedding, consulte Usar modelos de embedding com o RAG Engine.
- Para saber mais sobre a importação de arquivos, consulte Importar arquivos RAG.