Datastore

I archivi di dati vengono utilizzati dagli agenti del datastore per trovare risposte alle domande degli utenti finali dai tuoi dati. I datastore sono una raccolta di siti web e documenti, ognuno dei quali fa riferimento ai tuoi dati.

Quando un utente finale pone una domanda all'agente, l'agente cerca una risposta dai contenuti di origine specificati e riassume i risultati in una risposta dell'agente coerente. Fornisce inoltre link di supporto alle fonti della risposta per consentire all'utente finale di saperne di più. L'agente può fornire fino a cinque snippet di risposta per una determinata domanda.

Origini datastore

Puoi fornire diverse origini per i tuoi dati:

Contenuti dei siti web

Quando aggiungi i contenuti di un sito web come fonte, puoi aggiungere ed escludere più siti. Quando specifichi un sito, puoi utilizzare singole pagine o * come carattere jolly per un pattern. Tutti i contenuti HTML e PDF verranno elaborati.

Devi verificare il tuo dominio quando utilizzi i contenuti di un sito web come fonte.

Limitazioni:

  • I file di URL pubblici devono essere stati sottoposti a scansione dall'indicizzatore della Ricerca Google, in modo che esistano nell'indice di ricerca. Puoi verificarlo con Google Search Console.
  • Sono indicizzate massimo 200.000 pagine. Se il datastore contiene più pagine, l'indicizzazione non riesce e gli ultimi contenuti indicizzati rimangono.

Importare dati

Puoi importare i tuoi dati da BigQuery o Cloud Storage. Questi dati possono essere strutturati o non strutturati e con metadati o senza metadati.

Sono disponibili le seguenti opzioni di importazione dati:

  • Aggiungi/Aggiorna dati: i documenti forniti vengono aggiunti al datastore. Se un nuovo documento ha lo stesso ID di un vecchio documento, il nuovo documento sostituisce il vecchio.
  • Esegui l'override dei dati esistenti: tutti i dati precedenti vengono eliminati, quindi vengono caricati nuovi dati. Questa operazione è irreversibile.

Datastore strutturati

I datastore strutturati possono contenere risposte alle domande frequenti. Quando le domande degli utenti vengono associate con un'elevata affidabilità a una domanda caricata, l'agente restituisce la risposta alla domanda senza alcuna modifica. Puoi fornire un titolo e un URL per ogni coppia di domanda e risposta visualizzata dall'agente.

Per il caricamento dei dati nel datastore, è necessario utilizzare il formato CSV. Ogni file deve avere una riga di intestazione che descriva le colonne.

Ad esempio:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Le colonne title e url sono facoltative e possono essere omesse:

"answer","question"
"42","What is the meaning of life?"

Durante il processo di caricamento, è possibile selezionare una cartella in cui ogni file viene considerato come un file CSV, indipendentemente dall'estensione.

Limitazioni:

  • Lo spazio aggiuntivo dopo , causa un errore.
  • Le righe vuote (anche alla fine del file) causano un errore.

Datastore non strutturati

I datastore non strutturati possono includere contenuti nei seguenti formati:

  • HTML
  • PDF
  • TXT
  • CSV

Limitazioni:

  • La dimensione massima del file è 2,5 MB per i formati di testo e 100 MB per gli altri formati.

Datastore con metadati

È possibile fornire un titolo e un URL come metadati. Durante una conversazione con un utente, l'agente può fornire queste informazioni all'utente. Questo può aiutare gli utenti a collegarsi rapidamente a pagine web interne non accessibili all'indexer della Ricerca Google.

Per importare contenuti con metadati, devi fornire uno o più file JSON Lines. Ogni riga di questo file descrive un documento. Non devi caricare direttamente i documenti effettivi. Gli URI che rimandano ai percorsi di Cloud Storage sono forniti nel file JSON Lines.

Quando fornisci i tuoi file JSON Lines, devi fornire una cartella Cloud Storage che li contiene. Non inserire altri file in questa cartella.

Descrizione dei campi:

Campo Tipo Descrizione
ID string Identificatore univoco del documento.
content.mimeType string Tipo MIME del documento. "application/pdf" e "text/html" sono supportati.
content.uri string URI del documento in Cloud Storage.
content.structData string Oggetto JSON a riga singola con campi facoltativi title e url.

Ad esempio:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Datastore senza metadati

Questo tipo di contenuti non include metadati. Fornisci solo i documenti da importare. Il tipo di contenuti è determinato dall'estensione del file.

Analisi e configurazione di chunking

A seconda dell'origine dati, potresti essere in grado di configurare le impostazioni di analisi e chunk come definito da Vertex AI Search.

Crea un datastore

Per creare un datastore:

  1. Vai alla console di Agent Builder:

    Console di Agent Builder

  2. Seleziona il progetto dal menu a discesa della console.

  3. Leggi e accetta i Termini di servizio, quindi fai clic su Continua e attiva l'API.

  4. Fai clic su Data Store nel riquadro di navigazione a sinistra.

  5. Fai clic su Nuovo datastore.

  6. Scegli un'origine dati.

  7. Attiva Indicizzazione avanzata dei siti web. Questo campo è obbligatorio per gli agenti del datastore.

  8. Fornisci i dati e la configurazione per l'origine del datastore che hai selezionato. La località del datastore deve corrispondere alla località dell'agente.

  9. Fai clic su Crea per creare il datastore.

  10. (Facoltativo) Imposta la lingua del datastore:

    1. Nell'elenco dei datastore, fai clic sul datastore appena creato.
    2. Fai clic sul pulsante Modifica per l'impostazione della lingua.
    3. Seleziona una lingua e fai clic sul segno di spunta per applicarla.
  11. Verifica il dominio del tuo sito web.

Utilizzo di Cloud Storage per un documento di un datastore

Se i contenuti non sono pubblici, ti consigliamo di memorizzarli in Cloud Storage. Durante la creazione di documenti del datastore, fornisci gli URL degli oggetti Cloud Storage nel formato: gs://bucket-name/folder-name. Ogni documento all'interno della cartella viene aggiunto al datastore.

Quando crei il bucket Cloud Storage:

Segui le istruzioni della guida rapida di Cloud Storage per creare un bucket e caricare i file.

Linguaggi

Per le lingue supportate, consulta la colonna del datastore nel riferimento per la lingua di Dialogflow.

Per ottenere prestazioni ottimali, è consigliabile creare i datastore in un'unica lingua.

Dopo aver creato un datastore, puoi facoltativamente specificare la lingua del datastore. Se imposti la lingua del datastore, puoi connettere il datastore a un agente del datastore configurato per una lingua diversa. Ad esempio, puoi creare un datastore francese connesso a un agente inglese.

Aree geografiche supportate

Per le regioni supportate, consulta il riferimento per le regioni Dialogflow.