Repositórios de dados

Os repositórios de dados são usados pela gerenciadores de repositório de dados e ferramentas de repositório de dados do playbook para encontrar respostas para as perguntas do usuário final com base nos seus dados. Os repositórios de dados são uma coleção de sites e documentos, cada um deles faz referência aos seus dados.

Quando um usuário final faz uma pergunta ao agente, ele procura uma resposta no conteúdo da fonte fornecido e resume as descobertas em uma resposta coerente. Além disso, ele disponibiliza links de apoio das fontes da resposta para que o usuário final saiba mais. O agente pode fornecer até cinco snippets de resposta para uma determinada pergunta.

Fontes do repositório de dados

Há diferentes fontes que você pode fornecer para seus dados:

  • URLs do site: Rastrear automaticamente o conteúdo do site de uma lista de domínios ou páginas da Web.
  • BigQuery: importe dados da sua tabela do BigQuery.
  • Cloud Storage: importe dados do seu bucket do Cloud Storage.

Conteúdo do site

Ao adicionar conteúdo de um site como fonte, é possível adicionar e excluir vários sites. Ao especificar um site, é possível usar páginas individuais ou * como caractere curinga de um padrão. Todo o conteúdo em HTML e PDF será processado.

É necessário verificar seu domínio ao usar o conteúdo do site como fonte.

Limitações:

  • Os arquivos de URLs públicos precisam ter sido rastreados pelo indexador da Pesquisa Google. para que apareçam no índice de pesquisa. Verifique isso com o Google Search Console.
  • No máximo 200 mil páginas foram indexadas. Se o repositório de dados tiver mais páginas, a indexação falhará e o último conteúdo indexado vai permanecer.

Importar dados

Você pode importar seus dados do BigQuery ou do Cloud Storage. Esses dados podem ser estruturados ou não estruturados, e pode ser com metadados ou sem metadados.

As seguintes Opções de importação de dados estão disponíveis:

  • Adicionar/atualizar dados: Os documentos fornecidos são adicionados ao repositório de dados. Se um novo documento tiver o mesmo ID de um documento antigo, o novo documento substitui o antigo.
  • Substituir dados atuais: todos os dados antigos são excluídos e os novos são enviados. Essa ação é irreversível.

Repositório de dados estruturados

Os repositórios de dados estruturados podem armazenar respostas a perguntas frequentes (FAQs). Quando as perguntas do usuário são combinadas com alta confiança em uma pergunta enviada, o agente retorna a resposta para essa pergunta sem qualquer modificação. Você pode fornecer um título e um URL para cada par de perguntas e respostas que é exibido pelo agente.

Ao fazer o upload de dados para o repositório, é necessário usar o formato CSV. Cada arquivo precisa ter uma linha de cabeçalho descrevendo as colunas.

Exemplo:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

As colunas title e url são opcionais e podem ser omitidas:

"answer","question"
"42","What is the meaning of life?"

Durante o processo de upload, é possível selecionar uma pasta em que cada arquivo é tratado como um arquivo CSV, independentemente da extensão.

Limitações:

  • Um caractere de espaço extra após , causa um erro.
  • Linhas em branco (mesmo no final do arquivo) causam um erro.

Armazenamento de dados não estruturados

Os repositórios de dados não estruturados podem conter conteúdo nos seguintes formatos:

  • HTML
  • PDF
  • TXT
  • CSV

Limitações:

  • O tamanho máximo do arquivo é de 2,5 MB para formatos baseados em texto. 100 MB para outros formatos.

Armazenamento de dados com metadados

Um título e um URL podem ser fornecidos como metadados. Quando o agente está em uma conversa com um usuário, ele pode fornecer essas informações ao usuário. Isso pode ajudar os usuários para criar links rápidos para páginas da Web internas não acessíveis pela Pesquisa Google. indexador.

Para importar conteúdo com metadados, forneça um ou mais arquivos Linhas JSON. Cada linha desse arquivo descreve um documento. Você não faz upload direto dos documentos reais. Os URIs vinculados aos caminhos do Cloud Storage são fornecidos no arquivo JSON Lines.

Ao fornecer seus arquivos JSON Lines, você fornece uma pasta do Cloud Storage que contém esses arquivos. Não coloque outros arquivos nessa pasta.

Descrições dos campos:

Campo Tipo Descrição
id string Identificador exclusivo do documento.
content.mimeType string Tipo MIME do documento. "application/pdf" e "text/html" são aceitos.
content.uri string URI do documento no Cloud Storage.
structData string Objeto JSON de linha única com campos title e url opcionais.

Exemplo:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Repositório de dados sem metadados

Esse tipo de conteúdo não tem metadados. Basta fornecer os documentos para importação. O tipo de conteúdo é determinado pela extensão do arquivo.

Configuração de análise e bloco

Dependendo da fonte de dados, talvez seja possível configurar configurações de análise e bloco conforme definido pela Vertex AI para Pesquisa.

Criar um repositório de dados

Para criar um repositório de dados:

  1. Acesse o console do Agent Builder:

    Console do Criador de agentes

  2. Selecione seu projeto no menu suspenso do console.

  3. Leia e aceite os Termos de Serviço e clique em Continuar e ativar a API.

  4. Clique em Repositórios de dados na navegação à esquerda.

  5. Clique em Novo repositório de dados.

  6. Escolha uma fonte de dados.

  7. Ativar Indexação avançada de sites. Isso é necessário para os agentes do repositório de dados.

  8. Forneça dados e configuração para a origem do repositório de dados selecionada. O local do repositório de dados precisa corresponder ao local do agente.

  9. Clique em Criar para criar o repositório de dados.

  10. Opcionalmente, defina a linguagem do repositório de dados:

    1. Na lista de repositórios de dados, clique no repositório que você acabou de criar.
    2. Clique no botão de edição para a configuração de idioma.
    3. Selecione um idioma e clique na marca de seleção para aplicar.
  11. Verifique o domínio do seu site.

Como usar o Cloud Storage para um documento de repositório de dados

Se seu conteúdo não for público, armazená-lo no Cloud Storage é a opção recomendada. Ao criar documentos de armazenamento de dados, forneça os URLs dos seus objetos do Cloud Storage no formulário: gs://bucket-name/folder-name. Cada documento dentro da pasta é adicionado ao repositório de dados.

Ao criar o bucket do Cloud Storage:

Siga as instruções do guia de início rápido do Cloud Storage para criar um bucket e fazer o upload de arquivos.

Idiomas

Para os idiomas com suporte, ver a coluna do repositório de dados na referência do idioma.

Para ter o melhor desempenho, recomendamos que os repositórios de dados sejam criados em apenas um idioma.

Depois de criar um repositório de dados, é possível especificar o idioma dele. Se você definir o idioma do repositório de dados, é possível conectar o repositório de dados a um agente configurado para um idioma diferente. Por exemplo: crie um repositório de dados francês que está conectado a um agente em inglês.

Regiões compatíveis

Para regiões com suporte, consulte referência de região.