À propos des applications et des datastores

Cette page décrit les applications et les data stores Vertex AI Search. Pour en savoir plus sur les data stores des agents Vertex AI, consultez la section Data stores des agents Vertex AI.

Avec Vertex AI Search, vous créez une application de recherche ou de recommandations et la connectez à un data store. Un projet Google Cloud peut contenir plusieurs applications.

Relation entre les applications et les datastores

La relation entre les applications et les data stores dépend du type d'application:

  • Les applications de recherche génériques ont une relation de plusieurs à plusieurs avec les data stores. Lorsque plusieurs data stores sont connectés à une seule application de recherche générique, on parle de recherche combinée. Pour en savoir plus sur les limites liées à la connexion d'une application de recherche à plusieurs data store, consultez la section À propos de la recherche combinée.

  • Une application de recommandations génériques est associée à son datastore de manière individuelle.

  • Une application multimédia entretient une relation de plusieurs à un avec son data store. Une application ne peut se connecter qu'à un seul data store, tandis qu'un data store donné peut être connecté à plusieurs applications. Par exemple, une application de recherche de contenus multimédias et une application de recommandations de contenus multimédias peuvent partager un data store.

  • Une application de recherche de services de santé a une relation de plusieurs à un avec son data store. Une application ne peut se connecter qu'à un seul data store, tandis qu'un data store donné peut être connecté à plusieurs applications. Par exemple, une application destinée aux patients et une application destinée aux fournisseurs peuvent se connecter au même data store.

    Pour une importation de données groupée de données de santé, les données sont importées dans un datastore situé dans une application. Pour une importation de données en streaming (Preview) de données de santé, les données sont importées dans une entité, qui est un type de datastore situé dans un connecteur de données. Un connecteur de données est également un type de data store situé dans une application.

Une fois qu'un data store est connecté à une application, vous ne pouvez plus le dissocier.

Méthode de création d'applications et d'ingestion de données

La manière dont vous créez une application et ingérez des données dépend du type de données dont vous disposez:

  • Pour les données de site Web, vous devez utiliser la console Google Cloud, et non l'API, pour créer votre application et ingérer les données.

  • Pour les données structurées ou non structurées, vous pouvez utiliser la console Google Cloud ou l'API.

  • Pour les données de santé, vous pouvez utiliser la console Google Cloud ou l'API.

Documents

Chaque data store contient un ou plusieurs enregistrements de données, appelés documents. Ce qu'un document représente varie en fonction du type de données dans le data store:

  • Site Web Un document est une page Web.

  • Données structurées Un document est une ligne dans un tableau ou un enregistrement JSON qui suit un schéma particulier. Vous pouvez fournir ce schéma vous-même ou laisser Vertex AI Agent Builder le déduire des données ingérées.

  • Données structurées pour les contenus multimédias Un document est une ligne dans un tableau ou un enregistrement JSON qui suit un schéma spécifique aux contenus multimédias. Les documents sont des enregistrements concernant des contenus multimédias, tels que des vidéos, des articles d'actualité, des fichiers musicaux et des podcasts. Un document contient des informations qui décrivent le contenu multimédia, au minimum: le titre, l'URI de l'emplacement du contenu, les catégories, la durée et la date de disponibilité.

  • Données structurées pour les sources de données tierces (version Preview avec liste d'autorisation) Un document est une entité spécifique à la source de données tierce, comme un problème Jira ou un espace Confluence.

  • Données non structurées Un document est un fichier au format HTML, PDF avec texte intégré ou TXT. Les formats PPTX et DOCX sont disponibles en version Preview.

  • Données FHIR de santé Un document est une ressource FHIR R4 compatible. Pour obtenir la liste des ressources FHIR R4 compatibles avec la recherche Vertex AI, consultez la documentation de référence sur le schéma de données FHIR R4 Healthcare.

Datastores et applications

Vertex AI Agent Builder propose différents types de data stores. Un data store ne peut contenir qu'un seul type de données.

Données de site Web

Un data store contenant des données de site Web utilise les données indexées à partir de sites Web publics. Vous pouvez fournir un ensemble de domaines et configurer une recherche ou des recommandations sur les données explorées à partir de ces domaines. Ces données incluent du texte, des images taguées avec des métadonnées et des données structurées.

Par exemple, vous pouvez fournir des domaines tels que yourexamplewebsite.com/faq et yourexamplewebsite.com/events, et activer la recherche ou les recommandations sur le contenu de ces domaines.

Il existe deux types de magasins de données de site Web:

  • Recherche de base sur un site Web:

    • Fournit des fonctionnalités de recherche sur l'index de recherche Google existant pour les sites Web inclus.
    • Ne nécessite pas de validation de domaine.
  • Indexation avancée de site Web:

    • Fournit des fonctionnalités de recherche avancées sur un indice généré en fonction de l'index de recherche Google existant pour les sites Web inclus. Les propriétaires de l'application Vertex AI Agent Builder peuvent ensuite élargir la couverture de l'index en réexplorant les sites Web chaque fois que nécessaire, afin de le mettre à jour. Pour en savoir plus, consultez Actualiser les pages Web. Les fonctionnalités avancées de l'indexation avancée de sites Web sont listées dans la section Indexation avancée de sites Web.
    • Nécessite la validation du domaine. Pour en savoir plus, consultez Valider les domaines de sites Web.
    • Permet d'ajouter des données structurées au schéma du data store. Un site Web contient des données non structurées, mais vous pouvez ajouter des données structurées sous la forme de balises meta, d'attributs PageMap et de données schema.org à vos pages Web. Vous pouvez ensuite utiliser ces données structurées pour modifier le schéma du data store, comme expliqué dans la section Utiliser des données structurées pour l'indexation avancée des sites Web.

Étape suivante

Pour la recherche sur le site Web:

Pour obtenir des recommandations:

Données structurées

Un data store avec des données structurées permet la recherche sémantique ou les recommandations sur les données structurées. Vous pouvez importer des données depuis BigQuery ou Cloud Storage. Vous pouvez également importer manuellement des données JSON structurées via l'API.

Par exemple, vous pouvez activer la recherche ou les recommandations dans un catalogue de produits pour votre expérience d'e-commerce ou dans un annuaire de médecins pour la recherche ou les recommandations de prestataires.

Vertex AI Agent Builder détecte automatiquement le schéma à partir des données que vous importez. Vous pouvez également fournir un schéma pour vos données. Fournir un schéma pour vos données améliore généralement la qualité des résultats.

Étape suivante

Pour la recherche générique:

Pour les recommandations génériques:

Données structurées pour les contenus multimédias

Les applications multimédias ne peuvent être associées qu'à des data stores de contenus multimédias. Les magasins de données multimédias sont des magasins de données structurées avec un schéma défini par Google ou avec votre propre schéma personnalisé contenant un ensemble spécifique de cinq champs liés aux médias. Pour en savoir plus sur le schéma, consultez la section À propos des documents multimédias et des magasins de données.

Par exemple, vous pouvez activer les recommandations en créant une application de recommandations de contenus multimédias pour un catalogue de films ou un site d'actualités afin de proposer à vos utilisateurs des suggestions adaptées et personnalisées.

En plus des documents multimédias, les data stores multimédias contiennent également les informations sur les événements utilisateur qui permettent à Vertex AI Search de personnaliser les recommandations et de rechercher vos utilisateurs. Les événements utilisateur sont obligatoires pour les applications de recommandations de contenus multimédias et sont recommandés pour les applications de recherche de contenus multimédias. Pour en savoir plus sur les événements utilisateur, consultez Enregistrer des événements utilisateur en temps réel.

Étape suivante

Données structurées pour les entrepôts de données tiers

Les connecteurs de sources de données tierces suivants sont disponibles en version Preview avec liste d'autorisation:

  • Confluence
  • Jira
  • Salesforce
  • SharePoint Online
  • Slack

Les données de ces tiers sont considérées comme des données structurées.

Lorsque vous configurez un nouveau connecteur, vous sélectionnez une fréquence de synchronisation. Vous pouvez également sélectionner les entités à synchroniser. Les entités varient en fonction de la source, par exemple les problèmes pour Jira, et le contenu et les espaces pour Confluence. Un data store unique est créé pour chaque entité. Les datastores d'entités sont regroupés par instance de connecteur.

Étape suivante

Pour la recherche:

Pour obtenir des recommandations:

Données non structurées

Un data store non structurées permet d'effectuer des recherches sémantiques ou des recommandations sur des données telles que des documents et des images.

Les entrepôts de données non structurées acceptent les documents au format HTML, PDF avec texte intégré et TXT. Les formats PPTX et DOCX sont disponibles en version Preview.

La recherche fournit des résultats sous la forme de 10 URL et de réponses résumées pour les requêtes en langage naturel. Les documents doivent être importés dans un bucket Cloud Storage avec les autorisations d'accès appropriées. Par exemple, une institution financière peut activer la recherche ou les recommandations sur son corpus privé de publications de recherche financière, ou une entreprise de biotechnologie peut activer la recherche ou les recommandations sur son dépôt privé de recherches médicales.

Étape suivante

Pour la recherche:

Pour les recommandations génériques:

Données FHIR Healthcare

Une application de recherche de services de santé utilise des données FHIR R4 importées à partir d'un magasin FHIR de l'API Cloud Healthcare. Pour obtenir la liste des ressources FHIR R4 compatibles avec la recherche Vertex AI, consultez la documentation de référence sur le schéma de données FHIR R4 pour le secteur de la santé. Un data store FHIR R4 doit répondre à certaines exigences avant de pouvoir être utilisé comme source de données pour le data store Vertex AI Search. Pour en savoir plus, découvrez comment préparer les données FHIR de santé à l'ingestion.

Étape suivante

À propos de la recherche combinée

Vous pouvez créer une application de recherche combinée, dans laquelle plusieurs data stores peuvent être connectés à une seule application de recherche générique. Cette fonctionnalité vous permet d'utiliser une seule application pour effectuer des recherches dans plusieurs sources et types de données.

Pour créer une application de recherche combinée, sélectionnez plusieurs data stores lorsque vous créez une application de recherche générique. Si vous ne sélectionnez pas plusieurs data stores lors de la création, vous ne pourrez pas en ajouter plus tard.

Lorsque vous obtenez des résultats de recherche, vous pouvez effectuer une recherche dans tous les datastores ou filtrer les résultats d'un seul data store.

Les limites suivantes s'appliquent :

  • Ajouter et supprimer des magasins de données :
    • Pour activer la recherche combinée pour une application, vous devez y associer au moins deux magasins de données lors de la création de l'application.
    • Vous pouvez ajouter ou supprimer des data stores d'une application de recherche combinée, mais l'application ne peut pas avoir moins de deux data stores associés à tout moment.
    • Si vous associez un seul data store à une application de recherche lors de sa création, vous ne pouvez pas ajouter ni supprimer ce data store.
  • L'indexation avancée de site Web doit être activée pour les data stores de site Web afin qu'ils puissent être utilisés pour la recherche combinée. Pour en savoir plus, consultez la page Indexation avancée de site Web.
  • Les entrepôts de données contenant des données non structurées importées à l'aide de BigQuery ne sont pas acceptés.
  • La recherche combinée autorise les champs suivants dans les requêtes de recherche :
    • query
    • pageSize
    • offset
    • dataStoreSpecs
    • pageToken
    • filter
    • spellCorrectionSpec
    • session
    • contentSearchSpec
      • summarySpec
      • extractiveContentSpec
      • searchResultMode
      • chunkSpec
  • En plus des champs listés précédemment, les champs suivants ne sont compatibles avec les applications de recherche combinée que lorsque les requêtes de recherche sont filtrées pour obtenir des résultats à partir d'un seul data store. Elles ne sont pas acceptées lorsque vous obtenez des résultats à partir de plusieurs data store :
    • facetSpec
  • La recherche combinée autorise les champs suivants dans dataStoreSpecs :
    • boostSpec
    • filter: si des filtres sont spécifiés pour SearchRequest et dataStoreSpecs, les deux filtres sont appliqués aux résultats de recherche.
  • Les opérations CRUD (création, lecture, mise à jour et suppression) sur les configurations de diffusion sont compatibles avec les applications combinées. Seuls les champs suivants peuvent être ajoutés ou mis à jour dans une configuration de diffusion :
    • name
    • displayName
    • solutionType
    • genericConfig :
      • contentSearchSpec :
        • summarySpec
        • extractiveContentSpec
        • searchResultMode
        • chunkSpec
    • boostControlIds
    • synonymsControlIds
    • onewaySynonymsControlIds
  • Les opérations CRUD sur les commandes suivantes sont acceptées pour les applications de recherche combinée :
    • boostAction
    • synonymACtion
  • Les applications de recherche combinée ne sont pas compatibles avec les fonctionnalités suivantes :
    • Filtrage, redirection, ignorer, remplacement et dissociation des commandes de diffusion
    • Extraits utilisant contentSearchSpec.snippetSpec dans les requêtes de recherche ou les configurations de diffusion
    • Recherche avec questions complémentaires