Datastore

I archivi dati sono utilizzati agenti del datastore per trovare risposte alle domande degli utenti finali basandoti sui tuoi dati. I datastore sono una raccolta di siti web e documenti, ognuno dei quali fa riferimento ai tuoi dati.

Quando un utente finale pone una domanda all'agente, l'agente cerca una risposta dai contenuti di origine specificati e riassume i risultati in una risposta coerente dell'agente. Fornisce inoltre link di supporto alle fonti di la risposta per mostrare all'utente finale ulteriori informazioni. L'agente può fornire fino a cinque snippet di risposta per una determinata domanda.

Origini datastore

Puoi fornire diverse origini per i tuoi dati:

Contenuti dei siti web

Quando aggiungi i contenuti di un sito web come fonte, puoi aggiungere ed escludere più siti. Quando specifichi un sito, puoi utilizzare singole pagine o * come carattere jolly per un pattern. Tutti i contenuti HTML e PDF verranno elaborati.

Devi verificare il tuo dominio quando si utilizzano i contenuti di un sito web come fonte.

Limitazioni:

  • I file di URL pubblici devono essere stati sottoposti a scansione dall'indicizzatore della Ricerca Google. in modo che esistano nell'indice di ricerca. Puoi verificarlo con Google Search Console.
  • Sono indicizzate massimo 200.000 pagine. Se il datastore contiene più pagine, l'indicizzazione non riesce e rimangono gli ultimi contenuti indicizzati.

Importa dati

Puoi importare i tuoi dati da BigQuery o Cloud Storage. Questi dati possono essere strutturati o non strutturati, e può essere con metadati senza metadati.

Sono disponibili le seguenti opzioni di importazione dati:

  • Aggiungi/Aggiorna dati: I documenti forniti vengono aggiunti al datastore. Se un nuovo documento ha lo stesso ID di un vecchio documento, il nuovo documento sostituisce il vecchio.
  • Esegui l'override dei dati esistenti: Tutti i vecchi dati vengono eliminati, vengono caricati nuovi dati. Questa operazione è irreversibile.

Datastore strutturati

I datastore strutturati possono contenere risposte alle domande frequenti. Quando le domande degli utenti sono associate con un'elevata affidabilità a una domanda caricata, l'agente restituisce la risposta a quella domanda senza alcuna modifica. Puoi fornire un titolo e un URL per ogni coppia di domanda e risposta visualizzato dall'agente.

Per il caricamento dei dati nel datastore, è necessario utilizzare il formato CSV. Ogni file deve avere una riga di intestazione che descriva le colonne.

Ad esempio:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Le colonne title e url sono facoltative e possono essere omesse:

"answer","question"
"42","What is the meaning of life?"

Durante la procedura di caricamento, è possibile selezionare una cartella in cui ogni file viene trattato un file CSV a prescindere dall'estensione.

Limitazioni:

  • Lo spazio aggiuntivo dopo , causa un errore.
  • Le righe vuote (anche alla fine del file) causano un errore.

Datastore non strutturati

I datastore non strutturati possono includere contenuti nei seguenti formati:

  • HTML
  • PDF
  • TXT
  • CSV

Limitazioni:

  • La dimensione massima del file è 2,5 MB per i formati basati su testo, 100 MB per gli altri formati.

Datastore con metadati

È possibile fornire un titolo e un URL come metadati. Durante una conversazione con un utente, l'agente l'agente può fornire queste informazioni all'utente. Questo può aiutare gli utenti per rimandare rapidamente a pagine web interne non accessibili alla Ricerca Google indicizzatore.

Per importare contenuti con metadati: fornisci uno o più file JSON Lines. Ogni riga di questo file descrive un documento. Non carichi direttamente i documenti effettivi, Gli URI che rimandano ai percorsi di Cloud Storage sono forniti nel file JSON Lines.

Quando fornisci i tuoi file JSON Lines, fornisci una cartella di Cloud Storage che contiene questi file. Non inserire altri file in questa cartella.

Descrizione dei campi:

Campo Tipo Descrizione
ID string Identificatore univoco del documento.
content.mimeType string Tipo MIME del documento. "application/pdf" e "text/html" sono supportati.
content.uri string URI del documento in Cloud Storage.
content.structData string Oggetto JSON a riga singola con campi facoltativi title e url.

Ad esempio:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Datastore senza metadati

Questo tipo di contenuti non include metadati. Fornisci solo i documenti da importare. Il tipo di contenuti è determinato dall'estensione del file.

Analisi e configurazione di chunking

A seconda dell'origine dati, potresti essere in grado di configurare Impostazioni di analisi e chunking come definito da Vertex AI Search.

Crea un datastore

Per creare un datastore:

  1. Vai alla console di Agent Builder:

    Console di Agent Builder

  2. Seleziona il progetto dal menu a discesa della console.

  3. Leggi e accetta i Termini di servizio, quindi fai clic su Continua e attiva l'API.

  4. Fai clic su Data Store nel riquadro di navigazione a sinistra.

  5. Fai clic su Nuovo datastore.

  6. Scegli un'origine dati.

  7. Attiva Indicizzazione avanzata dei siti web. Questo campo è obbligatorio per gli agenti del datastore.

  8. Fornisci dati e configurazione per l'origine del datastore che hai selezionato. La località del datastore deve corrispondere sede dell'agente.

  9. Fai clic su Crea per creare il datastore.

  10. (Facoltativo) Imposta la lingua del datastore:

    1. Nell'elenco dei datastore, fai clic sul datastore appena creato.
    2. Fai clic sul pulsante Modifica per l'impostazione della lingua.
    3. Seleziona una lingua e fai clic sul segno di spunta per applicarla.
  11. Verifica il dominio del tuo sito web.

Utilizzo di Cloud Storage per un documento di un datastore

Se i contenuti non sono pubblici, archiviando i contenuti in Cloud Storage è l'opzione consigliata. Quando crei documenti del datastore, fornisci gli URL per gli oggetti Cloud Storage nel formato: gs://bucket-name/folder-name. Ogni documento all'interno della cartella viene aggiunto al datastore.

Quando crei il bucket Cloud Storage:

Segui la guida rapida di Cloud Storage. istruzioni per creare un bucket e caricare i file.

Linguaggi

Per le lingue supportate, vedi la colonna del datastore Riferimento al linguaggio Dialogflow.

Per ottenere prestazioni ottimali, è consigliabile creare i datastore in un'unica lingua.

Dopo aver creato un datastore, puoi facoltativamente specificare la lingua del datastore. Se imposti la lingua del datastore, puoi collegare il datastore agente del datastore configurato per una lingua diversa. Ad esempio: puoi creare un datastore francese collegato a un agente inglese.

Aree geografiche supportate

Per le regioni supportate, vedi il Riferimento per la regione Dialogflow.