Préparer les données pour l'ingestion

La façon dont vous préparez les données dépend du type de données que vous importez et de la méthode que vous choisissez. Commencez par déterminer le type de données que vous prévoyez d'importer:

Pour en savoir plus sur la recherche combinée, qui permet de connecter plusieurs data stores à une seule application de recherche générique, consultez la section Connecter plusieurs data stores.

Données de site Web

Lorsque vous créez un data store pour les données de votre site Web, vous fournissez les URL des pages Web que Google doit explorer et indexer pour la recherche ou les recommandations.

Avant d'indexer les données de votre site Web:

  • Définissez les formats d'URL à inclure dans votre indexation et ceux à exclure.

    • Excluez les modèles pour les URL dynamiques. Les URL dynamiques sont des URL qui changent au moment de la diffusion en fonction de la requête.

      Par exemple, les formats d'URL des pages Web qui affichent les résultats de recherche, comme www.example.com/search/*. Supposons qu'un utilisateur recherche la phrase Nobel prize. L'URL de recherche dynamique peut être une URL unique : www.example.com/search?q=nobel%20prize/UNIQUE_STRING. Si le format d'URL www.example.com/search/* n'est pas exclu, toutes les URL de recherche dynamique uniques qui suivent ce format sont indexées. Cela entraîne un indice gonflé et une qualité de recherche diluée.

    • Éliminez les URL en double à l'aide de formats d'URL canoniques. Cela fournit une seule URL canonique à la recherche Google lors de l'exploration du site Web et élimine toute ambiguïté. Pour obtenir des exemples de canonisation et plus d'informations, consultez Qu'est-ce que le choix de l'URL canonique ? et Spécifier une URL canonique avec rel="canonical" et d'autres méthodes.

  • Vous pouvez inclure des formats d'URL provenant du même domaine ou de différents domaines à indexer, et exclure les formats qui ne doivent pas être indexés. Le nombre de modèles d'URL que vous pouvez inclure et exclure diffère comme suit:

    Type d'indexation Sites inclus Sites exclus
    Recherche de base sur un site Web 50 formats d'URL maximum 50 formats d'URL maximum
    Indexation avancée de site Web 500 formats d'URL maximum 500 formats d'URL maximum

  • Vérifiez que les pages Web que vous prévoyez de fournir n'utilisent pas de fichier robots.txt pour bloquer l'indexation. Pour en savoir plus, consultez Présentation du fichier robot.txt.

  • Si vous prévoyez d'utiliser l'indexation avancée de sites Web, vous devez pouvoir valider les domaines des modèles d'URL dans votre data store.

  • Ajoutez des données structurées sous la forme de balises meta et de PageMaps à votre schéma de data store pour enrichir votre indexation, comme expliqué dans la section Utiliser des données structurées pour l'indexation avancée de sites Web.

Données non structurées

Vertex AI Search permet d'effectuer des recherches dans des documents au format HTML, PDF avec texte intégré et TXT. Les formats PPTX et DOCX sont disponibles en version Preview.

Vous importez vos documents à partir d'un bucket Cloud Storage. Vous pouvez importer des données à l'aide de Google Cloud Console, de la méthode ImportDocuments ou de l'ingestion en flux continu via les méthodes CRUD. Pour en savoir plus sur les références de l'API, consultez DocumentService et documents.

Le tableau suivant indique les limites de taille de chaque type de fichier avec différentes configurations (pour en savoir plus, consultez la section Analyser et diviser les documents). Vous pouvez importer jusqu'à 100 000 fichiers à la fois.

Type de fichier Importation par défaut Importer avec le découpage de documents tenant compte de la mise en page Importer avec l'analyseur de mise en page
Fichiers textuels tels que HTML, TXT, JSON, XHTML et XML < 2,5 Mo < 10 Mo < 10 Mo
PPTX, DOCX et XLSX < 200 Mo < 200 Mo < 200 Mo
PDF < 200 Mo < 200 Mo < 40 Mo

Si vous prévoyez d'inclure des représentations vectorielles continues dans vos données non structurées, consultez la section Utiliser des représentations vectorielles continues personnalisées.

Si vous disposez de fichiers PDF non indexables (PDF numérisés ou PDF avec du texte dans des images, comme des infographies), nous vous recommandons d'activer le traitement de la reconnaissance optique des caractères (OCR) lors de la création du data store. Cela permet à Vertex AI Search d'extraire des éléments tels que des blocs de texte et des tableaux. Si vous disposez de PDF consultables qui sont principalement composés de texte lisible par machine et contiennent de nombreuses tables, vous pouvez envisager d'activer le traitement OCR avec l'option de texte lisible par machine activée afin d'améliorer la détection et l'analyse. Pour en savoir plus, consultez Analyser et diviser les documents.

Si vous souhaitez utiliser Vertex AI Search pour la génération augmentée de récupération (RAG), activez le découpage de documents lorsque vous créez votre data store. Pour en savoir plus, consultez Analyser et diviser des documents.

Vous pouvez importer des données non structurées à partir des sources suivantes:

Cloud Storage

Vous pouvez importer des données depuis Cloud Storage avec ou sans métadonnées.

L'importation de données n'est pas récursive. Autrement dit, si le bucket ou le dossier que vous spécifiez contient des dossiers, les fichiers de ces dossiers ne sont pas importés.

Si vous prévoyez d'importer des documents depuis Cloud Storage sans métadonnées, placez-les directement dans un bucket Cloud Storage. L'ID de document est un exemple de métadonnées.

Pour les tests, vous pouvez utiliser les dossiers Cloud Storage publics suivants, qui contiennent des PDF:

  • gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
  • gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
  • gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
  • gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Si vous prévoyez d'importer des données à partir de Cloud Storage avec des métadonnées, placez un fichier JSON contenant les métadonnées dans un bucket Cloud Storage dont vous indiquez l'emplacement lors de l'importation.

Vos documents non structurés peuvent se trouver dans le même bucket Cloud Storage que vos métadonnées ou dans un autre.

Le fichier de métadonnées doit être un fichier JSON Lines ou NDJSON. L'ID de document est un exemple de métadonnées. Chaque ligne du fichier de métadonnées doit suivre l'un des formats JSON suivants:

  • En utilisant jsonData :
    • { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
  • En utilisant structData :
    • { "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Utilisez le champ uri de chaque ligne pour pointer vers l'emplacement Cloud Storage du document.

Voici un exemple de fichier de métadonnées NDJSON pour un document non structuré. Dans cet exemple, chaque ligne du fichier de métadonnées pointe vers un document PDF et contient les métadonnées de ce document. Les deux premières lignes utilisent jsonData et les deux dernières structData. Avec structData, vous n'avez pas besoin d'échapper les guillemets qui apparaissent entre guillemets.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Pour créer votre data store, consultez Créer un data store de recherche ou Créer un data store de recommandations.

BigQuery

Si vous prévoyez d'importer des métadonnées depuis BigQuery, créez une table BigQuery contenant des métadonnées. L'ID de document est un exemple de métadonnées.

Placez vos documents non structurés dans un bucket Cloud Storage.

Utilisez le schéma BigQuery suivant. Utilisez le champ uri dans chaque enregistrement pour faire pointer vers l'emplacement Cloud Storage du document.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Pour en savoir plus, consultez la section Créer et utiliser des tables dans la documentation BigQuery.

Pour créer votre data store, consultez Créer un data store de recherche ou Créer un data store de recommandations.

Google Drive

La synchronisation des données Google Drive est compatible avec la recherche générique.

Si vous prévoyez d'importer des données depuis Google Drive, vous devez configurer Google Identity comme fournisseur d'identité dans Vertex AI Agent Builder. Pour en savoir plus sur la configuration du contrôle des accès, consultez Utiliser le contrôle des accès des sources de données.

Pour créer votre data store, consultez Créer un data store de recherche.

Données structurées

Préparez vos données en fonction de la méthode d'importation que vous prévoyez d'utiliser. Si vous prévoyez d'ingérer des données multimédias, consultez également la section Données multimédias structurées.

Vous pouvez importer des données structurées à partir des sources suivantes:

Lorsque vous importez des données structurées depuis BigQuery ou Cloud Storage, vous avez la possibilité de les importer avec des métadonnées. (Les données structurées avec métadonnées sont également appelées données structurées améliorées.)

BigQuery

Vous pouvez importer des données structurées à partir d'ensembles de données BigQuery.

Votre schéma est détecté automatiquement. Après l'importation, Google vous recommande de modifier le schéma détecté automatiquement pour mapper les propriétés clés, telles que les titres. Si vous effectuez une importation à l'aide de l'API au lieu de la console Google Cloud, vous pouvez fournir votre propre schéma en tant qu'objet JSON. Pour en savoir plus, consultez la section Fournir ou détecter automatiquement un schéma.

Pour voir des exemples de données structurées accessibles au public, consultez les ensembles de données publics BigQuery.

Si vous prévoyez d'inclure des représentations vectorielles continues dans vos données structurées, consultez la section Utiliser des représentations vectorielles continues personnalisées.

Si vous choisissez d'importer des données structurées avec des métadonnées, vous devez inclure deux champs dans vos tables BigQuery:

  • Champ id permettant d'identifier le document. Si vous importez des données structurées sans métadonnées, id est généré pour vous. L'inclusion de métadonnées vous permet de spécifier la valeur de id.

  • Champ jsonData contenant les données. Pour obtenir des exemples de chaînes jsonData, consultez la section précédente Cloud Storage.

Utilisez le schéma BigQuery suivant pour les données structurées avec des importations de métadonnées:

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Pour savoir comment créer votre data store, consultez Créer un data store de recherche ou Créer un data store de recommandations.

Cloud Storage

Les données structurées dans Cloud Storage doivent être au format JSON Lines ou NDJSON. Chaque fichier doit avoir une taille inférieure ou égale à 2 Go. Vous pouvez importer jusqu'à 100 fichiers à la fois.

Pour obtenir des exemples de données structurées accessibles au public, consultez les dossiers suivants de Cloud Storage, qui contiennent des fichiers NDJSON:

  • gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
  • gs://cloud-samples-data/gen-app-builder/search/austin_311

Si vous prévoyez d'inclure des représentations vectorielles continues dans vos données structurées, consultez la section Utiliser des représentations vectorielles continues personnalisées.

Voici un exemple de fichier de métadonnées NDJSON pour des données structurées. Chaque ligne du fichier représente un document et est composée d'un ensemble de champs.

{"hotel_id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"hotel_id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"hotel_id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Pour créer votre data store, consultez Créer un data store de recherche ou Créer un data store de recommandations.

Pour savoir comment mettre en forme les données de questions fréquentes dans des fichiers CSV pour les applications de chat, consultez la section Structured data store (Entrepôt de données structurées) dans la documentation Dialogflow CX.

Données JSON locales

Vous pouvez importer directement un document ou un objet JSON à l'aide de l'API.

Pour de meilleurs résultats, Google vous recommande de fournir votre propre schéma en tant qu'objet JSON. Si vous ne fournissez pas votre propre schéma, il est détecté automatiquement. Après l'importation, nous vous recommandons de modifier le schéma détecté automatiquement pour mapper les propriétés clés, telles que les titres. Pour en savoir plus, consultez la section Fournir ou détecter automatiquement un schéma.

Si vous prévoyez d'inclure des représentations vectorielles continues dans vos données structurées, consultez la section Utiliser des représentations vectorielles continues personnalisées.

Pour créer votre data store, consultez Créer un data store de recherche ou Créer un data store de recommandations.

Données multimédias structurées

Si vous prévoyez d'ingérer des données multimédias structurées, telles que des vidéos, des actualités ou de la musique, consultez les points suivants:

Sources de données tierces

L'ingestion à partir de sources de données tierces est une fonctionnalité en version Preview avec une liste d'autorisation.

Les connexions à des sources de données tierces sont compatibles avec la recherche générique.

Lorsque vous connectez une source de données tierce, les données sont d'abord ingérées, puis synchronisées avec Vertex AI Search à une fréquence que vous spécifiez.

Avant de configurer la connexion à votre source de données, vous devez configurer le contrôle des accès pour votre source de données. Pour en savoir plus sur la configuration du contrôle des accès, consultez la page Utiliser le contrôle des accès des sources de données.

Pour connaître les identifiants requis pour connecter une source de données, consultez la documentation sur la connexion de la source de données tierce à partir de laquelle vous prévoyez d'ingérer des données:

Données FHIR Healthcare

Si vous prévoyez d'ingérer des données FHIR à partir de l'API Cloud Healthcare, assurez-vous de respecter les points suivants: