Os repositórios de dados são usados por gerenciadores de repositório de dados e ferramentas de repositório de dados do playbook para encontrar respostas para as perguntas do usuário final com base nos seus dados. Os repositórios de dados são uma coleção de sites e documentos, cada um deles faz referência aos seus dados.
Quando um usuário final faz uma pergunta ao agente, ele procura uma resposta no conteúdo da fonte fornecido e resume as descobertas em uma resposta coerente. Além disso, ele disponibiliza links de apoio das fontes da resposta para que o usuário final saiba mais. O agente pode fornecer até cinco snippets de resposta para uma determinada pergunta.
Origens do repositório de dados
Há diferentes fontes de dados que você pode fornecer:
- URLs de sites: rastreie automaticamente o conteúdo do site de uma lista de domínios ou páginas da Web.
- BigQuery: importe dados da sua tabela do BigQuery.
- Cloud Storage: importe dados do seu bucket do Cloud Storage.
Conteúdo do site
Ao adicionar o conteúdo do site como uma fonte,
é possível adicionar e excluir vários sites.
Ao especificar um site,
é possível usar páginas individuais ou *
como um curinga para um padrão.
Todo o conteúdo em HTML e PDF será processado.
É necessário verificar seu domínio ao usar o conteúdo do site como fonte.
Limitações:
- Os arquivos de URLs públicos precisam ter sido rastreados pelo indexador do Google Search para que apareçam no índice de pesquisa. Verifique isso com o Google Search Console.
- No máximo 200.000 páginas são indexadas. Se o repositório de dados tiver mais páginas, a indexação falhará e o último conteúdo indexado vai permanecer.
Importar dados
É possível importar seus dados do BigQuery ou do Cloud Storage. Esses dados podem ser estruturados ou não estruturados, com metadados ou sem metadados.
As seguintes Opções de importação de dados estão disponíveis:
- Adicionar/atualizar dados: os documentos fornecidos são adicionados ao repositório de dados. Se um novo documento tiver o mesmo ID de um documento antigo, ele vai substituir o documento antigo.
- Substituir dados atuais: todos os dados antigos são excluídos e os novos são enviados. Essa ação é irreversível.
Repositório de dados estruturados
Os repositórios de dados estruturados podem armazenar respostas a perguntas frequentes (FAQs). Quando as perguntas do usuário são correspondidas com alta confiança a uma pergunta enviada, o agente retorna a resposta para essa pergunta sem nenhuma modificação. Você pode fornecer um título e um URL para cada par de pergunta e resposta exibido pelo agente.
Ao fazer o upload de dados para o repositório de dados, é necessário usar o formato CSV. Cada arquivo precisa ter uma linha de cabeçalho que descreva as colunas.
Exemplo:
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
As colunas title
e url
são opcionais e podem ser omitidas:
"answer","question"
"42","What is the meaning of life?"
Durante o processo de upload, é possível selecionar uma pasta em que cada arquivo é tratado como um arquivo CSV, independentemente da extensão.
Limitações:
- Um caractere de espaço extra após
,
causa um erro. - Linhas em branco (mesmo no final do arquivo) causam um erro.
Repositório de dados não estruturados
Os repositórios de dados não estruturados podem conter conteúdo nos seguintes formatos:
- HTML
- TXT
- CSV
Limitações:
- O tamanho máximo do arquivo é de 2,5 MB para formatos baseados em texto e 100 MB para outros formatos.
Armazenamento de dados com metadados
Um título e um URL podem ser fornecidos como metadados. Quando o agente está em uma conversa com um usuário, ele pode fornecer essas informações ao usuário. Isso pode ajudar os usuários a vincular rapidamente páginas da Web internas que não são acessíveis pelo indexador da Pesquisa Google.
Para importar conteúdo com metadados, forneça um ou mais arquivos Linhas JSON. Cada linha desse arquivo descreve um documento. Você não faz o upload direto dos documentos. Os URIs que vinculam aos caminhos do Cloud Storage são fornecidos no arquivo JSON Lines.
Ao fornecer seus arquivos JSON Lines, você fornece uma pasta do Cloud Storage que contém esses arquivos. Não coloque outros arquivos nesta pasta.
Descrições dos campos:
Campo | Tipo | Descrição |
---|---|---|
id | string | Identificador exclusivo do documento. |
content.mimeType | string | Tipo MIME do documento. "application/pdf" e "text/html" são aceitos. |
content.uri | string | URI do documento no Cloud Storage. |
structData | string | Objeto JSON de linha única com campos title e url opcionais. |
Exemplo:
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
Armazenamento de dados sem metadados
Esse tipo de conteúdo não tem metadados. Basta enviar os documentos para importação. O tipo de conteúdo é determinado pela extensão do arquivo.
Analisar e dividir a configuração
Dependendo da origem de dados, é possível configurar as configurações de análise e fragmentação definidas pela Vertex AI para Pesquisa.
Criar um repositório de dados
Para criar um repositório de dados:
Acesse o console do Criador de agentes:
Selecione seu projeto no menu suspenso do console.
Leia e aceite os Termos de Serviço e clique em Continuar e ativar a API.
Clique em Armazenamentos de dados no painel de navegação à esquerda.
Clique em Novo repositório de dados.
Escolha uma origem de dados.
Ative a Indexação avançada de sites. Isso é necessário para agentes de repositório de dados.
Forneça dados e configuração para a fonte do repositório de dados selecionada. O local do repositório de dados precisa corresponder ao local do agente.
Clique em Criar para criar o repositório de dados.
Opcionalmente, defina a linguagem do repositório de dados:
- Na lista de repositórios de dados, clique no repositório de dados que você acabou de criar.
- Clique no botão de edição para a configuração de idioma.
- Selecione um idioma e clique no ícone de verificação para aplicar.
Como usar o Cloud Storage para um documento de repositório de dados
Se seu conteúdo não for público, armazená-lo no Cloud Storage é a opção recomendada.
Ao criar documentos de repositório de dados,
forneça os URLs dos seus objetos do Cloud Storage no formulário:
gs://bucket-name/folder-name
.
Cada documento na pasta é adicionado ao repositório de dados.
Ao criar o bucket do Cloud Storage:
- Verifique se você selecionou o projeto que usa para o agente.
- Use a classe Armazenamento padrão.
- Defina o local do bucket como o mesmo do agente.
Siga as instruções do guia de início rápido do Cloud Storage para criar um bucket e fazer o upload de arquivos.
Idiomas
Para saber quais idiomas são aceitos, consulte a coluna de repositório de dados na referência de idioma.
Para ter o melhor desempenho, é recomendável criar repositórios de dados em um único idioma.
Depois de criar um repositório de dados, é possível especificar o idioma dele. Se você definir o idioma do repositório de dados, é possível conectá-lo a um agente configurado para um idioma diferente. Por exemplo, é possível criar um repositório de dados em francês conectado a um agente em inglês.
Regiões compatíveis
Para saber quais regiões têm suporte, consulte a referência de região.