Les data stores sont utilisés par les gestionnaires de data store et les outils de data store de playbook pour trouver des réponses aux questions des utilisateurs finaux à partir de vos données. Les entrepôts de données sont une collection de sites Web et de documents, chacun faisant référence à vos données.
Lorsqu'un utilisateur final pose une question à l'agent, celui-ci recherche une réponse à partir du contenu source donné, puis résume les résultats dans une réponse cohérente. Il fournit également des liens vers les sources de la réponse pour permettre à l'utilisateur final d'en savoir plus. L'agent peut fournir jusqu'à cinq extraits de réponse pour une question donnée.
Sources de data store
Vous pouvez fournir vos données à partir de différentes sources:
- URL de sites Web : explorez automatiquement le contenu de sites Web à partir d'une liste de domaines ou de pages Web.
- BigQuery : importez des données à partir de votre table BigQuery.
- Cloud Storage : importez des données à partir de votre bucket Cloud Storage.
Contenu de site Web
Lorsque vous ajoutez du contenu de site Web en tant que source, vous pouvez ajouter et exclure plusieurs sites.
Lorsque vous spécifiez un site, vous pouvez utiliser des pages individuelles ou *
comme caractère générique pour un modèle.
Tout le contenu HTML et PDF sera traité.
Vous devez valider votre domaine lorsque vous utilisez le contenu d'un site Web comme source.
Limites :
- Les fichiers provenant d'URL publiques doivent avoir été explorés par le plug-in d'indexation de recherche Google, de sorte qu'ils existent dans l'index de recherche. Vous pouvez vérifier cela à l'aide de la Google Search Console.
- 200 000 pages maximum sont indexées. Si le data store contient plus de pages, l'indexation échoue et le dernier contenu indexé reste.
Importer des données
Vous pouvez importer vos données depuis BigQuery ou Cloud Storage. Ces données peuvent être structurées ou non structurées, et peuvent être associées à des métadonnées ou non.
Les options d'importation des données suivantes sont disponibles:
- Ajouter/Mettre à jour des données : les documents fournis sont ajoutés au data store. Si un nouveau document a le même ID qu'un ancien document, le nouveau document le remplace.
- Remplacer les données existantes : toutes les anciennes données sont supprimées, puis les nouvelles données sont importées. Cette opération est irréversible.
Data Store structuré
Les magasins de données structurées peuvent contenir des réponses aux questions fréquentes. Lorsque les questions des utilisateurs sont mises en correspondance avec une question importée avec un niveau de confiance élevé, l'agent renvoie la réponse à cette question sans aucune modification. Vous pouvez fournir un titre et une URL pour chaque paire de question/réponse affichée par l'agent.
Lorsque vous importez des données dans le data store, vous devez utiliser le format CSV. Chaque fichier doit comporter une ligne d'en-tête décrivant les colonnes.
Exemple :
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
Les colonnes title
et url
sont facultatives et peuvent être omises:
"answer","question"
"42","What is the meaning of life?"
Lors du processus d'importation, vous pouvez sélectionner un dossier dans lequel chaque fichier est traité comme un fichier CSV, quelle que soit son extension.
Limites :
- Un espace supplémentaire après
,
génère une erreur. - Les lignes vides (même à la fin du fichier) génèrent une erreur.
Data Store non structuré
Les datastores de données non structurées peuvent contenir du contenu dans les formats suivants:
- HTML
- TXT
- CSV
Limites :
- La taille maximale des fichiers est de 2,5 Mo pour les formats textuels et de 100 Mo pour les autres formats.
Data Store avec métadonnées
Vous pouvez fournir un titre et une URL en tant que métadonnées. Lorsque l'agent est en conversation avec un utilisateur, il peut lui fournir ces informations. Cela peut aider les utilisateurs à créer rapidement des liens vers des pages Web internes auxquelles l'indexeur de la recherche Google n'a pas accès.
Pour importer du contenu avec des métadonnées, vous devez fournir un ou plusieurs fichiers JSON Lines. Chaque ligne de ce fichier décrit un document. Vous n'importez pas directement les documents réels. Les URI qui redirigent vers les chemins Cloud Storage sont fournis dans le fichier JSON Lines.
Lorsque vous fournissez vos fichiers JSON Lines, vous fournissez un dossier Cloud Storage qui les contient. N'ajoutez aucun autre fichier à ce dossier.
Descriptions des champs:
Champ | Type | Description |
---|---|---|
id | chaîne | Identifiant unique du document. |
content.mimeType | chaîne | Type MIME du document. Les formats "application/pdf" et "text/html" sont acceptés. |
content.uri | chaîne | URI du document dans Cloud Storage. |
structData | chaîne | Objet JSON sur une seule ligne avec des champs title et url facultatifs. |
Exemple :
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
Data Store sans métadonnées
Ce type de contenu ne comporte pas de métadonnées. Il vous suffit de fournir les documents à importer. Le type de contenu est déterminé par l'extension du fichier.
Configuration de l'analyse et de la segmentation
Selon la source de données, vous pourrez peut-être configurer les paramètres d'analyse et de segmentation tels que définis par Vertex AI Search.
Créer un data store
Pour créer un data store:
Accédez à la console Agent Builder:
Sélectionnez votre projet dans le menu déroulant de la console.
Lisez et acceptez les conditions d'utilisation, puis cliquez sur Continuer et activer l'API.
Cliquez sur Data Stores (Espaces de stockage de données) dans le panneau de navigation de gauche.
Cliquez sur Nouveau datastore.
Choisissez une source de données.
Activez l'indexation avancée de site Web. Cette opération est obligatoire pour les agents de data store.
Fournissez les données et la configuration de la source de data store que vous avez sélectionnée. L'emplacement de votre data store doit correspondre à l'emplacement de l'agent.
Cliquez sur Créer pour créer le datastore.
Vous pouvez également définir le langage du data store:
- Dans la liste des datastores, cliquez sur celui que vous venez de créer.
- Cliquez sur le bouton Modifier correspondant au paramètre de langue.
- Sélectionnez une langue, puis cliquez sur la coche pour l'appliquer.
Utiliser Cloud Storage pour un document de data store
Si votre contenu n'est pas public, nous vous recommandons de le stocker dans Cloud Storage.
Lorsque vous créez des documents de data store, vous fournissez les URL de vos objets Cloud Storage sous la forme :gs://bucket-name/folder-name
.
Chaque document du dossier est ajouté au data store.
Lors de la création d'un bucket Cloud Storage :
- Assurez-vous d'avoir sélectionné le projet que vous utilisez pour l'agent.
- Utilisez la classe Stockage standard.
- Définissez l'emplacement du bucket sur l'emplacement de votre agent.
Suivez les instructions de la page Démarrage rapide de Cloud Storage pour créer un bucket et importer des fichiers.
Langues
Pour connaître les langues acceptées, consultez la colonne "data store" dans la documentation de référence sur les langues.
Pour des performances optimales, nous vous recommandons de créer des entrepôts de données dans une seule langue.
Une fois un data store créé, vous pouvez éventuellement spécifier la langue du data store. Si vous définissez la langue du data store, vous pouvez l&#data store;associer à un agent configuré pour une autre langue. Par exemple, vous pouvez créer un data store en français associé à un agent anglophone.
Régions où le service est disponible
Pour connaître les régions acceptées, consultez la documentation de référence sur les régions.