Repositórios de dados

Os armazenamentos de dados são usados por agentes de armazenamento de dados para encontrar respostas para as perguntas do usuário final com base nos seus dados. Os repositórios de dados são uma coleção de sites e documentos, cada um dos quais faz referência aos seus dados.

Quando um usuário final faz uma pergunta ao agente, ele procura uma resposta no conteúdo de origem fornecido e resume as descobertas em uma resposta do agente coerente. Ele também fornece links de apoio das fontes da resposta para que o usuário final saiba mais. O agente pode fornecer até cinco snippets de resposta para uma determinada pergunta.

Origens do repositório de dados

Há diferentes fontes que você pode fornecer para seus dados:

Conteúdo do site

Ao adicionar conteúdo do site como uma origem, você pode adicionar e excluir vários sites. Ao especificar um site, é possível usar páginas individuais ou * como caractere curinga de um padrão. Todo o conteúdo HTML e PDF será processado.

É necessário verificar seu domínio ao usar o conteúdo do site como origem.

Limitações:

  • Os arquivos de URLs públicos precisam ter sido rastreados pelo indexador da Pesquisa Google para que apareçam no índice de pesquisa. Verifique isso com o Google Search Console.
  • No máximo 200.000 páginas foram indexadas. Se o repositório de dados tiver mais páginas, a indexação vai falhar e o último conteúdo indexado permanece.

Importar dados

É possível importar dados do BigQuery ou do Cloud Storage. Esses dados podem ser estruturados ou não estruturados e podem estar com metadados ou sem metadados.

As seguintes opções de importação de dados estão disponíveis:

  • Adicionar/atualizar dados: os documentos fornecidos são adicionados ao repositório de dados. Se um novo documento tiver o mesmo ID de um documento antigo, o novo vai substituir o antigo.
  • Substituir dados atuais: todos os dados antigos são excluídos, e os novos dados são enviados. Essa ação é irreversível.

Repositório de dados estruturados

Os repositórios de dados estruturados podem conter respostas a perguntas frequentes. Quando as perguntas do usuário são combinadas com alta confiança a uma pergunta enviada, o agente retorna a resposta sem qualquer modificação. É possível fornecer um título e um URL para cada par de perguntas e respostas exibido pelo agente.

Ao fazer o upload de dados para o repositório de dados, o formato CSV precisa ser usado. Cada arquivo precisa ter uma linha de cabeçalho com a descrição das colunas.

Exemplo:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

As colunas title e url são opcionais e podem ser omitidas:

"answer","question"
"42","What is the meaning of life?"

Durante o processo de upload, uma pasta pode ser selecionada e cada arquivo é tratado como um arquivo CSV, independentemente da extensão.

Limitações:

  • Um caractere de espaço extra após , causa um erro.
  • Linhas em branco (mesmo no final do arquivo) causam um erro.

Repositório de dados não estruturados

Os repositórios de dados não estruturados podem ter conteúdo nos seguintes formatos:

  • HTML
  • PDF
  • TXT
  • CSV

Limitações:

  • O tamanho máximo do arquivo é de 2,5 MB para formatos baseados em texto e 100 MB para outros formatos.

Repositório de dados com metadados

Um título e um URL podem ser fornecidos como metadados. Quando o agente está em uma conversa com um usuário, ele pode fornecer essas informações a ele. Isso pode ajudar os usuários a vincular rapidamente a páginas da Web internas que não podem ser acessadas pelo indexador da Pesquisa Google.

Para importar conteúdo com metadados, forneça um ou mais arquivos JSON Lines. Cada linha desse arquivo descreve um documento. Não é possível fazer upload direto dos documentos reais. Os URIs que se vinculam aos caminhos do Cloud Storage são fornecidos no arquivo JSON Lines.

Ao fornecer seus arquivos de linhas JSON, você fornece uma pasta do Cloud Storage que contém esses arquivos. Não coloque outros arquivos nessa pasta.

Descrições dos campos:

Campo Tipo Descrição
id string Identificador exclusivo do documento.
content.mimeType string Tipo MIME do documento. "application/pdf" e "text/html" são suportados.
content.uri string URI do documento no Cloud Storage.
content.structData string Objeto JSON de linha única com campos title e url opcionais.

Exemplo:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Repositório de dados sem metadados

Esse tipo de conteúdo não tem metadados. Basta fornecer os documentos para importação. O tipo de conteúdo é determinado pela extensão do arquivo.

Configuração de análise e bloco

Dependendo da fonte de dados, é possível definir configurações de análise e divisão conforme definido pela Vertex AI para Pesquisa.

Criar um repositório de dados

Para criar um repositório de dados:

  1. Acesse o console do Agent Builder:

    Console do Agent Builder

  2. Selecione o projeto na lista suspensa do console.

  3. Leia e aceite os Termos de Serviço e clique em Continuar e ativar a API.

  4. Clique em Repositórios de dados na navegação à esquerda.

  5. Clique em Novo repositório de dados.

  6. Escolha uma fonte de dados.

  7. Ative a Indexação avançada de sites. Isso é necessário para os agentes do repositório de dados.

  8. Forneça os dados e a configuração da fonte de repositório de dados selecionada. O local do repositório de dados precisa corresponder ao local do agente.

  9. Clique em Criar para criar o repositório de dados.

  10. Como opção, defina o idioma do repositório de dados:

    1. Na lista de repositórios de dados, clique naquele que você acabou de criar.
    2. Clique no botão de edição da configuração de idioma.
    3. Selecione um idioma e clique na marca de seleção para aplicar.
  11. Verifique o domínio do seu site.

Como usar o Cloud Storage para um documento de repositório de dados

Se seu conteúdo não for público, armazená-lo no Cloud Storage é a opção recomendada. Ao criar documentos de repositório de dados, você fornece os URLs dos objetos do Cloud Storage no formato: gs://bucket-name/folder-name. Cada documento dentro da pasta é adicionado ao repositório de dados.

Ao criar o bucket do Cloud Storage:

Siga as instruções do guia de início rápido do Cloud Storage para criar um bucket e fazer o upload de arquivos.

Idiomas

Para idiomas compatíveis, consulte a coluna do repositório de dados na referência de idiomas do Dialogflow.

Para ter o melhor desempenho, recomendamos que os repositórios de dados sejam criados em apenas um idioma.

Depois de criar um repositório de dados, é possível especificar o idioma dele. Se você definir o idioma do repositório de dados, será possível conectá-lo a um agente do repositório de dados configurado para um idioma diferente. Por exemplo, é possível criar um repositório de dados francês conectado a um agente inglês.

Regiões compatíveis

Para conhecer as regiões compatíveis, consulte a referência da região do Dialogflow.