Repositórios de dados

Os repositórios de dados são usados pela agentes do repositório de dados para encontrar respostas para as perguntas do usuário final com base nos seus dados. Os repositórios de dados são uma coleção de sites e documentos, cada um dos quais faz referência aos seus dados.

Quando um usuário final faz uma pergunta ao agente, o agente procura uma resposta do conteúdo de origem fornecido e resume as descobertas em uma resposta do agente coerente. Ele também fornece links de apoio para as fontes de a resposta para o usuário final para saber mais. O agente pode fornecer até cinco snippets de resposta para uma determinada pergunta.

Origens do repositório de dados

Há diferentes fontes que você pode fornecer para seus dados:

Conteúdo do site

Ao adicionar o conteúdo do site como uma origem, é possível adicionar e excluir vários sites. Ao especificar um site, é possível usar páginas individuais ou * como caractere curinga de um padrão. Todo o conteúdo HTML e PDF será processado.

Você deve verificar seu domínio ao usar conteúdo de sites como fonte.

Limitações:

  • Os arquivos de URLs públicos precisam ter sido rastreados pelo indexador da Pesquisa Google. para que apareçam no índice de pesquisa. Verifique isso com o Google Search Console.
  • No máximo 200.000 páginas foram indexadas. Se o repositório de dados tiver mais páginas, a indexação vai falhar e o último conteúdo indexado permanece.

Importar dados

É possível importar dados do BigQuery ou do Cloud Storage. Esses dados podem ser estruturados ou não estruturados, e pode ser com metadados ou sem metadados.

As seguintes opções de importação de dados estão disponíveis:

  • Adicionar/atualizar dados: Os documentos fornecidos são adicionados ao repositório de dados. Se um novo documento tiver o mesmo ID de um documento antigo, o novo documento substitui o antigo.
  • Substituir dados atuais: Todos os dados antigos são excluídos, e, em seguida, os novos dados são carregados. Essa ação é irreversível.

Repositório de dados estruturados

Os repositórios de dados estruturados podem conter respostas a perguntas frequentes. Quando as perguntas do usuário são combinadas com alta confiança em uma pergunta enviada, o agente retorna a resposta para essa pergunta sem qualquer modificação. Você pode fornecer um título e um URL para cada par de perguntas e respostas que é exibido pelo agente.

Ao fazer o upload de dados para o repositório de dados, o formato CSV precisa ser usado. Cada arquivo precisa ter uma linha de cabeçalho descrevendo as colunas.

Exemplo:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

As colunas title e url são opcionais e podem ser omitidas:

"answer","question"
"42","What is the meaning of life?"

Durante o processo de upload, uma pasta pode ser selecionada e cada arquivo é tratado como um arquivo CSV, independentemente da extensão.

Limitações:

  • Um caractere de espaço extra após , causa um erro.
  • Linhas em branco (mesmo no final do arquivo) causam um erro.

Repositório de dados não estruturados

Os repositórios de dados não estruturados podem ter conteúdo nos seguintes formatos:

  • HTML
  • PDF
  • TXT
  • CSV
.

Limitações:

  • O tamanho máximo do arquivo é de 2,5 MB para formatos baseados em texto. 100 MB para outros formatos.

Repositório de dados com metadados

Um título e um URL podem ser fornecidos como metadados. Quando o agente está em uma conversa com um usuário, o agente pode fornecer essas informações ao usuário. Isso pode ajudar os usuários para criar links rápidos para páginas da Web internas não acessíveis pela Pesquisa Google. indexador.

Para importar conteúdo com metadados, você fornece um ou mais JSON Lines. Cada linha desse arquivo descreve um documento. Você não faz upload direto dos documentos reais. Os URIs vinculados aos caminhos do Cloud Storage são fornecidos no arquivo JSON Lines.

Ao fornecer seus arquivos JSON Lines, você fornece uma pasta do Cloud Storage que contém esses arquivos. Não coloque outros arquivos nessa pasta.

Descrições dos campos:

Campo Tipo Descrição
id string Identificador exclusivo do documento.
content.mimeType string Tipo MIME do documento. "application/pdf" e "text/html" são suportados.
content.uri string URI do documento no Cloud Storage.
content.structData string Objeto JSON de linha única com campos title e url opcionais.

Exemplo:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Repositório de dados sem metadados

Esse tipo de conteúdo não tem metadados. Basta fornecer os documentos para importação. O tipo de conteúdo é determinado pela extensão do arquivo.

Configuração de análise e bloco

Dependendo da fonte de dados, talvez seja possível configurar configurações de análise e bloco conforme definido pela Vertex AI para Pesquisa.

Criar um repositório de dados

Para criar um repositório de dados:

  1. Acesse o console do Agent Builder:

    Console do Agent Builder

  2. Selecione o projeto na lista suspensa do console.

  3. Leia e aceite os Termos de Serviço e clique em Continuar e ativar a API.

  4. Clique em Repositórios de dados na navegação à esquerda.

  5. Clique em Novo repositório de dados.

  6. Escolha uma fonte de dados.

  7. Ativar Indexação avançada de sites. Isso é necessário para os agentes do repositório de dados.

  8. Fornecer dados e configuração para a fonte de repositório de dados selecionada. O local do repositório de dados deve corresponder à local do agente.

  9. Clique em Criar para criar o repositório de dados.

  10. Como opção, defina o idioma do repositório de dados:

    1. Na lista de repositórios de dados, clique naquele que você acabou de criar.
    2. Clique no botão de edição . para a configuração de idioma.
    3. Selecione um idioma e clique na marca de seleção para aplicar.
  11. Verifique o domínio do seu site.

Como usar o Cloud Storage para um documento de repositório de dados

Se seu conteúdo não for público, armazená-lo no Cloud Storage é a opção recomendada. Ao criar documentos de repositório de dados, você fornece os URLs para seus objetos do Cloud Storage no formato: gs://bucket-name/folder-name: Cada documento dentro da pasta é adicionado ao repositório de dados.

Ao criar o bucket do Cloud Storage:

Siga as instruções do guia de início rápido do Cloud Storage para criar um bucket e fazer o upload de arquivos.

Idiomas

Para os idiomas com suporte, ver a coluna do repositório de dados na Referência de linguagem do Dialogflow.

Para ter o melhor desempenho, recomendamos que os repositórios de dados sejam criados em apenas um idioma.

Depois de criar um repositório de dados, é possível especificar o idioma do repositório de dados. Se você definir o idioma do repositório de dados, é possível conectar o repositório de dados agente de repositório de dados configurado para um idioma diferente. Por exemplo: crie um repositório de dados francês conectado a um agente em inglês.

Regiões compatíveis

Para regiões com suporte, consulte Referência da região do Dialogflow.