À propos des applications et des datastores

Cette page décrit les applications et les data stores Vertex AI Search.

Avec Vertex AI Search, vous créez une application de recherche ou de recommandations et vous l'associez à un data store. Un projet Google Cloud peut contenir plusieurs applications.

Relation entre les applications et les datastores

La relation entre les applications et les datastores dépend du type d'application :

  • Les applications de recherche personnalisée entretiennent une relation de type plusieurs à plusieurs avec les datastores. Lorsque plusieurs data stores sont associés à une même application de recherche personnalisée, on parle de recherche combinée. Pour en savoir plus sur les limites associées à la connexion d'une application de recherche à plusieurs data store, consultez À propos de la recherche combinée.

  • Une application de recommandation personnalisée entretient une relation de type un à un avec son datastore.

  • Les applications de recherche multimédia entretiennent une relation de type plusieurs à un avec leur datastore. Une application ne peut être associée qu'à un seul data store, mais un data store donné peut être associé à plusieurs applications. Par exemple, une application de recherche multimédia et une application de recommandation multimédia peuvent utiliser le même data store.

  • Les applications de recherche de données de santé entretiennent une relation de type plusieurs à un avec leur datastore. Une application ne peut être associée qu'à un seul data store, mais un data store donné peut être associé à plusieurs applications. Par exemple, une application destinée aux patients et une application destinée aux prestataires peuvent être associées au même data store.

    Pour l'importation groupée de données de santé, les données sont importées dans un datastore au sein d'une application. Pour l'importation de données de santé en flux continu (version Preview), les données sont importées dans une entité, qui est un type de datastore au sein d'un connecteur de données. Un connecteur de données est également un type de data store qui se trouve dans une application.

Une fois qu'un datastore est associé à une application, il ne peut plus être dissocié.

Méthode de création d'applications et d'ingestion de données

La façon dont vous créez une application et ingérez des données dépend du type de données dont vous disposez :

  • Pour les données de site Web, vous pouvez utiliser la console Google Cloud ou l'API. Pour utiliser des données de site Web créées avec l'API, vous devez les associer à une application dont les fonctionnalités Enterprise sont activées dans la console Google Cloud .

  • Pour les données structurées ou non structurées, vous pouvez utiliser la consoleGoogle Cloud ou l'API.

  • Pour les données de santé, vous pouvez utiliser la console Google Cloud ou l'API.

Documents

Chaque data store contient un ou plusieurs enregistrements de données, appelés documents. Ce qu'un document représente dépend du type de données du data store :

  • Site Web Un document est une page Web.

  • Données structurées Un document est une ligne de tableau ou un enregistrement JSON qui suit un schéma particulier. Vous pouvez fournir ce schéma vous-même ou laisser les applications d'IA le déduire depuis les données ingérées.

  • Données structurées pour les contenus multimédias Un document est une ligne de tableau ou un enregistrement JSON qui suit un schéma spécifique aux contenus multimédias. Les documents sont des enregistrements liés à des contenus multimédias, tels que des vidéos, des articles d'actualité, des fichiers musicaux et des podcasts. Un document contient des informations qui décrivent l'élément multimédia, au minimum : le titre, l'URI menant à l'emplacement du contenu, les catégories, la durée et la date de disponibilité.

  • Données non structurées Un document correspond à un fichier au format HTML, PDF avec du texte intégré ou TXT. Les formats PPTX et DOCX sont disponibles en version Preview.

  • Données de santé FHIR Un document est une ressource FHIR R4 acceptée. Pour obtenir la liste des ressources FHIR R4 compatibles avec Vertex AI Search, consultez la documentation de référence sur le schéma de données FHIR R4 pour le secteur de la santé.

Datastores et applications

Dans AI Applications, il existe différents types de datastores. Un data store ne peut contenir qu'un seul type de données.

Données de site Web

Un data store contenant des données de site Web utilise des données indexées à partir de sites Web publics. Vous pouvez fournir un ensemble de formats d'URL que vous souhaitez inclure dans votre data store. Les pages Web qui correspondent aux formats d'URL sont appelées pages Web incluses. Vous pouvez ensuite configurer la recherche dans les données explorées à partir des pages Web incluses.

Par exemple, vous pouvez fournir des modèles d'URL tels que example.com/faq/* et example.com/events/*, puis activer la recherche sur les données explorées à partir de ces pages Web qui correspondent au modèle. Ces données incluent du texte, des images taguées avec des métadonnées et d'autres données structurées telles que les balises meta, les attributs PageMap et les données schema.org.

Vous pouvez également fournir des formats d'URL pour les parties de sites Web que vous souhaitez exclure, par exemple example.com/events/members-only/* ou example.com/events/past-*. Les URL exclues sont prioritaires par rapport à celles incluses.

Il existe deux types de datastores de site Web :

  • Recherche de base sur un site Web :

    • Fournit des fonctionnalités de recherche dans l'index de recherche Google existant pour les sites Web inclus.
    • Aucune validation de domaine n'est requise.
  • Indexation avancée de site Web :

    • Fournit des fonctionnalités de recherche avancées sur un index généré à partir de l'un des éléments suivants :
      • Les propriétaires d'applications Vertex AI Search peuvent contrôler les pages Web indexées en envoyant des sitemaps et en les gérant. Pour en savoir plus, consultez Indexer et actualiser des pages Web à l'aide de sitemaps. Ce processus permet de maintenir l'index à jour sans intervention manuelle.
      • Les propriétaires d'applications Vertex AI Search peuvent effectuer une indexation initiale qui reflète l'index de la recherche Google, puis étendre la couverture de l'index en réexplorant les sites Web chaque fois que nécessaire pour le maintenir à jour. Pour en savoir plus, consultez Actualiser des pages Web. Les fonctionnalités avancées de l'indexation avancée de site Web sont listées dans Indexation avancée de site Web.
    • Les propriétaires de data stores Vertex AI Search doivent valider les domaines auxquels appartiennent les sites Web inclus. Pour en savoir plus, consultez Valider les domaines de sites Web.
    • Permet d'ajouter des données structurées au schéma du data store. Un site Web contient des données non structurées, mais vous pouvez ajouter des données structurées sous forme de balises meta, d'attributs PageMap et de données schema.org à vos pages Web. Vous pouvez ensuite utiliser ces données structurées pour modifier le schéma du data store, comme expliqué dans Utiliser des données structurées pour l'indexation avancée de sites Web.

Étapes suivantes

Pour la recherche sur un site Web :

Données structurées

Un data store avec des données structurées permet la recherche sémantique ou les recommandations basées sur des données structurées. Vous pouvez importer des données depuis BigQuery ou Cloud Storage. Vous pouvez également importer manuellement des données JSON structurées via l'API.

Par exemple, vous pouvez proposer des fonctionnalités de recherche ou de recommandations basées sur un catalogue de produits pour votre expérience d'e-commerce, ou encore proposer un annuaire de praticiens pour les recherches ou les recommandations de prestataires de santé.

Les applications d'IA détectent automatiquement le schéma à partir des données que vous importez. Vous pouvez également fournir un schéma pour vos données. Fournir un schéma pour vos données améliore généralement la qualité des résultats.

Étapes suivantes

Pour la recherche personnalisée :

Pour les recommandations personnalisées :

Données structurées pour les contenus multimédias

Les applications multimédias ne peuvent être associées qu'à des data stores de contenus multimédias. Les magasins de données média sont des magasins de données structurées avec un schéma défini par Google ou avec votre propre schéma personnalisé contenant un ensemble spécifique de cinq champs liés aux médias. Pour en savoir plus sur le schéma, consultez À propos des documents média et des data stores.

Par exemple, vous pouvez activer les recommandations en créant une application de recommandations multimédias pour un catalogue de films ou un site d'actualités. Vos utilisateurs recevront ainsi des suggestions adaptées et personnalisées.

En plus des documents multimédias, les data stores de contenus multimédias contiennent également les informations sur les événements utilisateur qui permettent à Vertex AI Search de personnaliser les recommandations et la recherche pour vos utilisateurs. Les événements utilisateur sont obligatoires pour les applications multimédias. Pour en savoir plus sur les événements utilisateur, consultez Enregistrer des événements utilisateur en temps réel.

Étapes suivantes

Données non structurées

Un data store non structuré permet la recherche sémantique sur des données telles que des documents et des images.

Les dépôts de données non structurées acceptent les documents aux formats HTML, PDF avec texte intégré et TXT. Les formats PPTX et DOCX sont disponibles en version Preview.

La recherche fournit des résultats sous la forme de 10 URL et de réponses résumées pour les requêtes en langage naturel. Les documents doivent être importés dans un bucket Cloud Storage avec les autorisations d'accès appropriées. Par exemple, un établissement financier peut activer la recherche dans son corpus privé de publications de recherche financière, ou une entreprise de biotechnologie peut activer la recherche ou les recommandations dans son dépôt privé de recherches médicales.

Étapes suivantes

Pour la recherche :

Données de santé FHIR

Une application de recherche dans le domaine de la santé utilise des données FHIR R4 importées depuis un store FHIR de l'API Cloud Healthcare. Pour obtenir la liste des ressources FHIR R4 compatibles avec Vertex AI Search, consultez la documentation de référence sur le schéma de données FHIR R4 pour le secteur de la santé. Un data store FHIR R4 doit répondre à certaines exigences pour pouvoir être utilisé comme source de données pour un data store Vertex AI Search. Pour en savoir plus, découvrez comment préparer les données FHIR de santé pour l'ingestion.

Étapes suivantes

À propos de la recherche mixte

Vous pouvez créer une application de recherche combinée, dans laquelle plusieurs data stores peuvent être associés à une seule application de recherche personnalisée. Cette fonctionnalité vous permet d'utiliser une seule application pour effectuer des recherches dans plusieurs sources et types de données.

Pour créer une application de recherche combinée, sélectionnez plusieurs data stores lorsque vous créez une application de recherche personnalisée. Si vous ne sélectionnez pas plusieurs data stores lors de la création, vous ne pourrez pas en ajouter d'autres par la suite.

Lorsque vous obtenez des résultats de recherche, vous pouvez effectuer une recherche dans tous les datastores ou filtrer les résultats d'un seul data store.

Les limites suivantes s'appliquent :

  • Ajouter et supprimer des data stores :
    • Pour activer la recherche combinée pour une application, vous devez y associer au moins deux data stores lors de la création de l'application.
    • Vous pouvez ajouter ou supprimer des data stores dans une application de recherche combinée, mais l'application doit toujours être associée à au moins deux data stores.
    • Si vous associez un seul data store à une application de recherche lors de la création de l'application, vous ne pourrez pas ajouter ni supprimer ce data store.
  • Pour pouvoir être utilisés pour la recherche combinée, les data stores de site Web doivent être activés pour l'indexation avancée de sites Web. Pour en savoir plus, consultez Indexation avancée de sites Web.
  • Les datastores contenant des données non structurées importées à l'aide de BigQuery ne sont pas acceptés.
  • La recherche combinée autorise les champs suivants dans les requêtes de recherche :
    • boostSpec
    • contentSearchSpec
    • dataStoreSpecs
    • facetSpecs
    • filter
    • languageCode
    • offset
    • oneBoxPageSize
    • orderBy
    • query
    • pageSize
    • pageToken
    • relevanceScoreSpec
    • relevanceThreshold
    • session
    • sessionSpec
    • spellCorrectionSpec
    • userInfo
    • userPseudoId
  • La recherche mixte autorise les champs suivants dans dataStoreSpecs :
    • dataStore
    • boostSpec : si des spécifications d'amplification sont spécifiées pour SearchRequest et dataStoreSpecs, les deux spécifications d'amplification sont appliquées aux résultats de recherche.
    • filter : si des filtres sont spécifiés pour SearchRequest et dataStoreSpecs, les deux filtres sont appliqués aux résultats de recherche.
  • Les opérations CRUD (création, lecture, mise à jour et suppression) sur les configurations de diffusion sont acceptées pour les applications combinées. Seuls les champs suivants peuvent être ajoutés ou mis à jour dans une configuration de diffusion :
    • boostControlIds
    • displayName
    • filterControlIds
    • genericConfig :
      • contentSearchSpec
    • name
    • solutionType
    • synonymsControlIds
  • Les opérations CRUD sur les contrôles suivants sont acceptées pour les applications de recherche mixte :
    • boostAction
    • synonymAction
    • filterAction
  • Le nombre de data stores par application de recherche est limité à 50.
  • Si un data store utilise une configuration CMEK, tous les autres magasins de données doivent également utiliser la même configuration CMEK.