I datastore vengono utilizzati dagli agenti dei datastore per trovare risposte alle domande degli utenti finali a partire dai tuoi dati. I datastore sono una raccolta di siti web e documenti, ognuno dei quali fa riferimento ai tuoi dati.
Quando un utente finale pone una domanda all'agente, quest'ultimo cerca una risposta dal contenuto di origine specificato e riassume i risultati in una risposta coerente dell'agente. Fornisce inoltre link di supporto alle sorgenti della risposta per consentire all'utente finale di saperne di più. L'agente può fornire fino a cinque snippet di risposta per una determinata domanda.
Origini datastore
Esistono diverse origini che puoi fornire per i tuoi dati:
- URL dei siti web: esegui automaticamente la scansione dei contenuti di siti web da un elenco di domini o pagine web.
- BigQuery: Importa i dati dalla tua tabella BigQuery.
- Cloud Storage: Importa i dati dal bucket Cloud Storage.
Contenuti dei siti web
Quando aggiungi i contenuti di un sito web come
origine, puoi aggiungere ed escludere più siti.
Quando specifichi un sito, puoi utilizzare singole pagine o *
come carattere jolly per un pattern.
Tutti i contenuti HTML e PDF verranno elaborati.
Devi verificare il tuo dominio quando utilizzi i contenuti del sito web come fonte.
Limitazioni:
- I file degli URL pubblici devono essere stati sottoposti a scansione dall'indicizzatore della Ricerca Google affinché siano presenti nell'indice di ricerca. Puoi verificarlo con Google Search Console.
- Sono indicizzate al massimo 200.000 pagine. Se il datastore contiene più pagine, l'indicizzazione non riesce e l'ultimo contenuto indicizzato rimane.
Importa dati
Puoi importare i dati da BigQuery o Cloud Storage. Questi dati possono essere strutturati o non strutturati e possono essere con metadati o senza metadati.
Sono disponibili le seguenti opzioni di importazione dati:
- Aggiungi/Aggiorna dati: i documenti forniti vengono aggiunti al datastore. Se un nuovo documento ha lo stesso ID di un documento precedente, il nuovo documento sostituisce quello vecchio.
- Sostituisci dati esistenti: tutti i vecchi dati vengono eliminati, poi vengono caricati i nuovi dati. Questa operazione è irreversibile.
Datastore di dati strutturati
I datastore strutturati possono contenere risposte alle domande frequenti. Quando le domande degli utenti vengono associate con un'elevata affidabilità a una domanda caricata, l'agente restituisce la risposta a quella domanda senza alcuna modifica. Puoi fornire un titolo e un URL per ogni coppia di domanda e risposta visualizzata dall'agente.
Per il caricamento dei dati nel datastore, è necessario utilizzare il formato CSV. Ogni file deve avere una riga di intestazione che descriva le colonne.
Ad esempio:
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
Le colonne title
e url
sono facoltative e possono essere omesse:
"answer","question"
"42","What is the meaning of life?"
Durante il processo di caricamento, è possibile selezionare una cartella in cui ogni file viene trattato come un file CSV indipendentemente dall'estensione.
Limitazioni:
- Lo spazio aggiuntivo dopo
,
determina un errore. - Le righe vuote (anche alla fine del file) causano un errore.
Datastore non strutturati
I datastore non strutturati possono includere contenuti nei seguenti formati:
- HTML
- TXT
- CSV
Limitazioni:
- La dimensione massima di un documento è 100 MB.
Datastore con metadati
Un titolo e un URL possono essere forniti come metadati. Quando l'agente è impegnato in una conversazione con un utente, può fornirgli queste informazioni. Questo può aiutare gli utenti a collegarsi rapidamente a pagine web interne non accessibili dall'indicizzatore della Ricerca Google.
Per importare contenuti con metadati, devi fornire uno o più file JSON Lines. Ogni riga di questo file descrive un documento. Non carichi direttamente i documenti effettivi; gli URI che rimandano ai percorsi Cloud Storage vengono forniti nel file JSON Lines.
Quando fornisci i file JSON Lines, fornisci una cartella Cloud Storage contenente questi file. Non inserire altri file in questa cartella.
Descrizioni dei campi:
Campo | Tipo | Descrizione |
---|---|---|
id | string | Identificatore univoco del documento. |
content.mimeType | string | Tipo MIME del documento. sono supportati i campi "application/pdf" e "text/html". |
content.uri | string | URI del documento in Cloud Storage. |
content.structData | string | Oggetto JSON a riga singola con campi title e url facoltativi. |
Ad esempio:
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
Datastore senza metadati
Questo tipo di contenuti non ha metadati. Basta fornire i documenti da importare. Il tipo di contenuti è determinato dall'estensione del file.
Configurazione di analisi e blocchi
A seconda dell'origine dati, potresti essere in grado di configurare le impostazioni di analisi e blocco come definite da Vertex AI Search.
Crea un datastore
Per creare un datastore:
Vai a Vertex AI Conversation Console:
Seleziona il progetto dal menu a discesa della console.
Leggi e accetta i Termini di servizio, quindi fai clic su Continua e attiva l'API.
Nel menu di navigazione a sinistra, fai clic su Datastore.
Fai clic su Nuovo datastore.
Scegli un'origine di dati.
Attiva Indicizzazione avanzata dei siti web. Questa operazione è obbligatoria per gli agenti del datastore.
Fornisci i dati e la configurazione per l'origine del datastore selezionata. La località del datastore deve corrispondere alla località dell'agente.
Fai clic su Crea per creare il datastore.
Utilizzo di Cloud Storage per un documento relativo a un datastore
Se i contenuti non sono pubblici,
l'opzione consigliata è archiviarla in Cloud Storage.
Quando crei documenti del datastore, fornisci gli URL per gli oggetti Cloud Storage nel formato:
gs://bucket-name/folder-name
.
Ogni documento all'interno della cartella viene aggiunto al datastore.
Quando crei il bucket Cloud Storage:
- Assicurati di aver selezionato il progetto che utilizzi per l'agente.
- Utilizza la classe Standard Storage.
- Imposta la località del bucket sulla stessa località dell'agente.
Segui le istruzioni della guida rapida di Cloud Storage per creare un bucket e caricare i file.
Lingue supportate
Per le lingue supportate, consulta la colonna del datastore nel riferimento delle lingue di Dialogflow.
Per ottenere prestazioni ottimali, è consigliabile creare i datastore in un'unica lingua.
Aree geografiche supportate
Per le regioni supportate, consulta il riferimento sulle regioni di Dialogflow.