Repositórios de dados

Os armazenamentos de dados são usados por agentes de repositório de dados para encontrar respostas a perguntas de usuários finais nos seus dados. Os repositórios de dados são uma coleção de sites e documentos, cada um deles fazendo referência aos seus dados.

Quando um usuário final faz uma pergunta, o agente procura uma resposta do conteúdo de origem especificado e resume as descobertas em uma resposta coerente. Ele também fornece links de apoio para as fontes da resposta para que o usuário final saiba mais. O agente pode fornecer até cinco snippets de resposta para uma determinada pergunta.

Origens do repositório de dados

Você pode fornecer diferentes fontes para seus dados:

  • URLs de sites: rastreie automaticamente o conteúdo do site usando uma lista de domínios ou páginas da Web.
  • BigQuery: importe dados da sua tabela do BigQuery.
  • Cloud Storage: importe dados do bucket do Cloud Storage.

Conteúdo do site

Ao adicionar o conteúdo do site como fonte, você pode adicionar e excluir vários sites. Ao especificar um site, é possível usar páginas individuais ou * como caractere curinga de um padrão. Todo o conteúdo em HTML e PDF será processado.

Você precisa verificar seu domínio ao usar o conteúdo do site como fonte.

Limitações:

  • Os arquivos de URLs públicos precisam ter sido rastreados pelo indexador da Pesquisa Google para que apareçam no índice de pesquisa. Verifique isso com o Google Search Console.
  • No máximo 200.000 páginas são indexadas. Se o repositório de dados tiver mais páginas, a indexação falhará e o último conteúdo indexado permanecerá.

Importar dados

É possível importar seus dados do BigQuery ou do Cloud Storage. Esses dados podem ser estruturados ou não estruturados, e podem estar com metadados ou sem metadados.

As seguintes opções de importação de dados estão disponíveis:

  • Adicionar/atualizar dados: os documentos fornecidos são adicionados ao repositório de dados. Se um novo documento tiver o mesmo ID de um antigo, o novo vai substituir o antigo.
  • Substituir dados existentes: todos os dados antigos são excluídos e, em seguida, os novos dados são enviados. Essa ação é irreversível.

Repositório de dados estruturados

Os repositórios de dados estruturados podem conter respostas a perguntas frequentes. Quando as perguntas do usuário são correspondidas com alta confiança a uma pergunta enviada, o agente retorna a resposta sem nenhuma modificação. Você pode fornecer um título e um URL para cada par de perguntas e respostas mostrado pelo agente.

Ao fazer o upload de dados para o repositório de dados, o formato CSV deve ser usado. Cada arquivo precisa ter uma linha de cabeçalho descrevendo as colunas.

Exemplo:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

As colunas title e url são opcionais e podem ser omitidas:

"answer","question"
"42","What is the meaning of life?"

Durante o processo de upload, é possível selecionar uma pasta em que cada arquivo é tratado como um arquivo CSV, independentemente da extensão.

Limitações:

  • O caractere de espaço extra após , causa um erro.
  • Linhas em branco (mesmo no final do arquivo) causam um erro.

Repositório de dados não estruturados

Os repositórios de dados não estruturados podem ter conteúdo nos seguintes formatos:

  • HTML
  • PDF
  • TXT
  • CSV

Limitações:

  • O tamanho máximo do arquivo é de 2,5 MB para formatos baseados em texto e 100 MB para outros formatos.

Repositório de dados com metadados

Um título e um URL podem ser fornecidos como metadados. Quando o agente está em uma conversa com um usuário, ele pode fornecer essas informações a ele. Isso pode ajudar os usuários a criar links rápidos para páginas da Web internas não acessíveis pelo indexador da Pesquisa Google.

Para importar conteúdo com metadados, forneça um ou mais arquivos JSON Lines. Cada linha desse arquivo descreve um documento. Você não faz upload direto dos documentos reais. Os URIs com links para os caminhos do Cloud Storage são fornecidos no arquivo de linhas JSON.

Ao fornecer os arquivos de linhas JSON, você fornece uma pasta do Cloud Storage que contém esses arquivos. Não coloque outros arquivos nessa pasta.

Descrições dos campos:

Campo Tipo Descrição
id string Identificador exclusivo do documento.
content.mimeType string Tipo MIME do documento. "application/pdf" e "text/html" são suportados.
content.uri string URI do documento no Cloud Storage.
content.structData string Objeto JSON de linha única com campos title e url opcionais.

Exemplo:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Repositório de dados sem metadados

Esse tipo de conteúdo não tem metadados. Forneça apenas os documentos que serão importados. O tipo de conteúdo é determinado pela extensão do arquivo.

Analisar e agrupar a configuração

Dependendo da fonte de dados, você pode definir configurações de análise e bloco conforme definidas pela Vertex AI para Pesquisa.

Criar um repositório de dados

Para criar um repositório de dados:

  1. Acesse o console do Agent Builder:

    Console do Agent Builder

  2. Selecione o projeto no menu suspenso do console.

  3. Leia e aceite os Termos de Serviço e clique em Continuar e ativar a API.

  4. Clique em Repositórios de dados na navegação à esquerda.

  5. Clique em Novo repositório de dados.

  6. Escolha uma fonte de dados.

  7. Ative a Indexação avançada de sites. Isso é necessário para agentes do repositório de dados.

  8. Forneça os dados e a configuração da fonte do repositório de dados selecionada. O local do repositório de dados precisa corresponder ao local do agente.

  9. Clique em Criar para gerar o repositório de dados.

  10. É possível definir o idioma do repositório de dados:

    1. Na lista de repositórios de dados, clique naquele que você acabou de criar.
    2. Clique no botão de edição para a configuração de idioma.
    3. Selecione um idioma e clique na marca de seleção para aplicar.
  11. Verifique o domínio do seu site.

Como usar o Cloud Storage para um documento de repositório de dados

Se seu conteúdo não for público, armazená-lo no Cloud Storage é a opção recomendada. Ao criar documentos de repositório de dados, você fornece os URLs dos objetos do Cloud Storage no formato: gs://bucket-name/folder-name. Cada documento na pasta é adicionado ao repositório de dados.

Ao criar o bucket do Cloud Storage:

Siga as instruções do guia de início rápido do Cloud Storage para criar um bucket e fazer o upload de arquivos.

Idiomas

Para idiomas compatíveis, consulte a coluna do repositório de dados na referência da linguagem do Dialogflow.

Para obter o melhor desempenho, recomendamos que os repositórios de dados sejam criados em um único idioma.

Depois de criar um repositório de dados, é possível especificar o idioma dele. Se você definir o idioma do repositório de dados, será possível conectá-lo a um agente de armazenamento de dados configurado para outro idioma. Por exemplo, é possível criar um repositório de dados em francês que esteja conectado a um agente em inglês.

Regiões compatíveis

Para regiões compatíveis, consulte a referência da região do Dialogflow.