Préparer les données pour l'ingestion

La façon dont vous préparez les données dépend du type de données que vous importez et de la façon dont vous choisissez de l'importer. Commencez par déterminer le type de données que vous prévoyez d'importer :

Pour en savoir plus sur la recherche combinée, qui permet de connecter plusieurs data stores à une seule application de recherche générique, consultez la section Connecter plusieurs data stores.

Données de site Web

Lorsque vous créez un data store pour les données de votre site Web, vous fournissez les URL des pages Web que Google doit explorer et indexer pour la recherche ou les recommandations.

Avant d'indexer les données de votre site Web :

  • Définissez les formats d'URL à inclure dans votre indexation et ceux à exclure.

    • Excluez les formats d'URL dynamiques. Les URL dynamiques sont des URL qui lors de la diffusion, en fonction de la requête.

      Par exemple, les formats d'URL des pages Web sur lesquelles apparaissent résultats, tels que www.example.com/search/*. Supposons qu'un utilisateur recherche la phrase Nobel prize. L'URL de recherche dynamique peut être une URL unique : www.example.com/search?q=nobel%20prize/UNIQUE_STRING. Si le format d'URL www.example.com/search/* n'est pas exclu, toutes les URL de recherche dynamique uniques qui suivent ce format sont indexées. Par conséquent, l'index est surchargé et la qualité de la recherche est diluée.

    • Éliminez les URL en double à l'aide de modèles d'URL canoniques. Vous bénéficiez ainsi une seule URL canonique pour la recherche Google lors de l'exploration du site Web et élimine toute ambiguïté. Pour obtenir des exemples de mise en forme canonique et plus consultez les articles Qu'est-ce que la mise en forme canonique des URL ? et Comment spécifier une URL canonique avec l'attribut rel="canonique" et d'autres méthodes.

  • Vous pouvez inclure des formats d'URL provenant du même domaine ou de différents domaines à indexer, et exclure les formats qui ne doivent pas être indexés. Le nombre de modèles d'URL que vous pouvez inclure et exclure diffère comme suit :

    Type d'indexation Sites inclus Sites exclus
    Recherche de base sur un site Web 50 formats d'URL maximum 50 formats d'URL maximum
    Indexation avancée de site Web 500 formats d'URL maximum 500 formats d'URL maximum

  • Vérifiez que les pages Web que vous prévoyez de fournir n'utilisent pas de fichier robots.txt pour les bloquer ou l'indexation. Pour en savoir plus, consultez Présentation du fichier robot.txt.

  • Si vous prévoyez d'utiliser l'indexation avancée de site Web, vous doivent pouvoir valider les domaines pour les formats d'URL dans votre data store.

  • Ajoutez des données structurées sous la forme de balises meta et de PageMap à vos schéma de data store pour enrichir votre indexation, comme expliqué dans Utilisez des données structurées pour l'indexation avancée de site Web.

Pour créer votre data store, consultez Créer un data store de recherche ou Créer un data store de recommandations.

Données non structurées

Vertex AI Search permet d'effectuer des recherches dans des documents au format HTML, PDF avec texte intégré et TXT. Les formats PPTX et DOCX sont disponibles en version Preview.

Vous importez vos documents à partir d'un bucket Cloud Storage bucket. Vous pouvez effectuer l'importation à l'aide de la console Google Cloud ImportDocuments ou par ingestion en flux continu via des méthodes CRUD. Pour en savoir plus sur les références de l'API, consultez DocumentService et documents.

Les fichiers HTML et TXT doivent être inférieurs à 2,5 Mo. Les fichiers PDF, PPTX et DOCX ne doivent pas dépasser 100 Mo. Vous pouvez importer jusqu'à 100 000 fichiers à la fois.

Si vous prévoyez d'inclure des représentations vectorielles continues dans vos données non structurées, consultez la section Utiliser des représentations vectorielles continues personnalisées.

Si vous avez des PDF dans lesquels il n'est pas possible d'effectuer des recherches (PDF scannés ou PDF contenant du texte dans des images, comme les infographies), nous vous conseillons d'activer la reconnaissance optique des caractères lors de la création du data store. Cela permet à Vertex AI Search d'extraire des éléments tels que des blocs de texte et des tableaux. Si vous avez des PDF inclus dans l'index de recherche qui sont pour la plupart composés de documents et contiennent de nombreux tableaux, vous pouvez activer le traitement OCR l'option de texte lisible par un ordinateur activée afin d'améliorer la détection et de l'analyse. Pour en savoir plus, consultez Analyser et diviser les documents.

Si vous souhaitez utiliser Vertex AI Search pour la génération augmentée de récupération (RAG), activez le découpage de documents lorsque vous créez votre datastore. Pour plus plus d'informations, consultez la section Analyser et diviser des documents.

Vous pouvez importer des données non structurées à partir des sources suivantes:

Cloud Storage

Vous pouvez importer des données depuis Cloud Storage avec ou sans métadonnées.

L'importation de données n'est pas récursive. Autrement dit, si le bucket ou le dossier que vous spécifiez contient des dossiers, les fichiers de ces dossiers ne sont pas importés.

Si vous envisagez d'importer des documents depuis Cloud Storage sans métadonnées, placez votre des documents directement dans un bucket Cloud Storage. L'ID du document est un exemple de métadonnées.

Pour les tests, vous pouvez utiliser l'espace de stockage Cloud Storage public suivant des dossiers contenant des PDF:

  • gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
  • gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
  • gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
  • gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224

Si vous envisagez d'importer des données à partir de Cloud Storage avec des métadonnées, placez un fichier JSON qui contient les métadonnées dans un bucket Cloud Storage dont vous fournies lors de l'importation.

Vos documents non structurés peuvent se trouver dans le même bucket Cloud Storage que vos métadonnées ou dans un autre.

Le fichier de métadonnées doit être un fichier JSON Lines ou NDJSON. L'ID du document est un exemple de métadonnées. Chaque ligne du fichier de métadonnées doit suivre l'un des formats JSON suivants :

  • En utilisant jsonData :
    • { "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
  • Avec structData:
    • { "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }

Utilisez le champ uri de chaque ligne pour indiquer l'emplacement Cloud Storage le document.

Voici un exemple de fichier de métadonnées NDJSON pour un document non structuré. Dans cet exemple, chaque ligne du fichier de métadonnées pointe vers un document PDF et contient les métadonnées de ce document. Les deux premières lignes utilisent jsonData et les deux autres lignes utilisent structData. Avec structData, vous n'avez pas besoin de Échappez les guillemets qui apparaissent entre guillemets.

{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}

Pour créer votre data store, consultez Créer un data store de recherche. Créez un data store de recommandations.

BigQuery

Si vous envisagez d'importer des métadonnées à partir de BigQuery, créez un Table BigQuery contenant des métadonnées. L'ID du document est un exemple de métadonnées.

Placez vos documents non structurés dans un bucket Cloud Storage.

Utilisez le schéma BigQuery suivant. Utilisez le champ uri dans chaque enregistrement pour faire pointer vers l'emplacement Cloud Storage du document.

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "content",
    "type": "RECORD",
    "mode": "NULLABLE",
    "fields": [
      {
        "name": "mimeType",
        "type": "STRING",
        "mode": "NULLABLE"
      },
      {
        "name": "uri",
        "type": "STRING",
        "mode": "NULLABLE"
      }
    ]
  }
]

Pour en savoir plus, consultez la section Créer et utiliser des tables dans la documentation BigQuery.

Pour créer votre data store, consultez Créer un data store de recherche ou Créer un data store de recommandations.

Google Drive

La synchronisation des données à partir de Google Drive est compatible avec la recherche générique.

Si vous envisagez d'importer des données depuis Google Drive, vous devez configurer l'identité Google en tant que fournisseur d'identité dans Vertex AI Agent Builder. Pour en savoir plus sur la configuration du contrôle des accès, consultez Utiliser le contrôle des accès des sources de données.

Pour créer votre data store, consultez Créer un data store de recherche.

Données structurées

Préparez vos données en fonction de la méthode d'importation que vous prévoyez d'utiliser. Si vous prévoyez d'ingérer des données multimédias, consultez également la section Données multimédias structurées.

Vous pouvez importer des données structurées à partir des sources suivantes :

Lorsque vous importez des données structurées depuis BigQuery ou Cloud Storage, vous avez la possibilité de les importer avec des métadonnées. (Les données structurées avec métadonnées sont également appelées données structurées améliorées.)

BigQuery

Vous pouvez importer des données structurées à partir d'ensembles de données BigQuery.

Votre schéma est détecté automatiquement. Après l'importation, Google vous recommande de modifier le schéma détecté automatiquement pour mapper les propriétés clés, telles que les titres. Si vous effectuez une importation à l'aide de l'API au lieu de la console Google Cloud, vous pouvez fournir votre propre schéma en tant qu'objet JSON. Pour en savoir plus, consultez Fournissez ou détectez automatiquement un schéma.

Pour obtenir des exemples de données structurées accessibles au public, consultez les Ensembles de données publics BigQuery.

Si vous prévoyez d'inclure des représentations vectorielles continues dans vos données structurées, consultez la section Utiliser des représentations vectorielles continues personnalisées.

Si vous choisissez d'importer des données structurées avec des métadonnées, vous incluez deux champs dans vos tables BigQuery:

  • Un champ id pour identifier le document. Si vous importez des données structurées sans métadonnées, id est généré pour vous. L'inclusion de métadonnées vous permet de spécifier la valeur de id.

  • Un champ jsonData contenant les données. Pour obtenir des exemples de chaînes jsonData, consultez la section précédente sur Cloud Storage.

Utilisez le schéma BigQuery suivant pour les données structurées avec des importations de métadonnées :

[
  {
    "name": "id",
    "mode": "REQUIRED",
    "type": "STRING",
    "fields": []
  },
  {
    "name": "jsonData",
    "mode": "NULLABLE",
    "type": "STRING",
    "fields": []
  }
]

Pour savoir comment créer votre data store, consultez Créer un data store de recherche ou Créer un data store de recommandations.

Cloud Storage

Les données structurées dans Cloud Storage doivent être au format JSON Lines ou NDJSON. La taille de chaque fichier ne doit pas dépasser 2 Go. Vous pouvez importer jusqu'à 100 fichiers à la fois.

Pour obtenir des exemples de données structurées accessibles au public, consultez les ressources suivantes : Dossiers Cloud Storage contenant des fichiers NDJSON:

  • gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
  • gs://cloud-samples-data/gen-app-builder/search/austin_311

Si vous prévoyez d'inclure des représentations vectorielles continues dans vos données structurées, consultez la section Utiliser des représentations vectorielles continues personnalisées.

Voici un exemple de fichier de métadonnées NDJSON de données structurées. Chaque ligne du fichier représente un document et est composée d'un ensemble de champs.

{"hotel_id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"hotel_id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"hotel_id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}

Pour créer votre data store, consultez Créer un data store de recherche ou Créer un data store de recommandations.

Données JSON locales

Vous pouvez importer directement un document ou un objet JSON à l'aide de l'API.

Pour obtenir de meilleurs résultats, Google vous recommande de fournir votre propre schéma en tant qu'objet JSON. Si vous ne fournissez pas votre propre schéma, il est détecté automatiquement. Après l'importation, nous vous recommandons de modifier le schéma détecté automatiquement pour mapper les propriétés clés, telles que les titres. Pour en savoir plus, consultez Fournissez ou détectez automatiquement un schéma.

Si vous prévoyez d'inclure des représentations vectorielles continues dans vos données structurées, consultez Utiliser des représentations vectorielles continues personnalisées.

Pour créer votre data store, consultez Créer un data store de recherche. Créez un data store de recommandations.

Données multimédias structurées

Si vous prévoyez d'ingérer des données multimédias structurées, telles que des vidéos, des actualités ou de la musique, consultez les points suivants :

Sources de données tierces

L'ingestion à partir de sources de données tierces est disponible en preview avec la fonctionnalité de liste d'autorisation.

Les connexions à des sources de données tierces sont compatibles avec la recherche générique.

Lorsque vous connectez une source de données tierce, les données sont initialement ingérées sont ensuite synchronisées avec Vertex AI Search à la fréquence que vous spécifiez.

Avant de configurer la connexion à votre source de données, vous devez configurer le contrôle des accès pour votre source de données. Pour en savoir plus sur la configuration du contrôle des accès, consultez Utilisez le contrôle des accès aux sources de données.

Pour connaître les identifiants requis pour connecter une source de données, consultez la documentation sur la connexion de la source de données tierce à partir de laquelle vous prévoyez d'ingérer des données :

Données FHIR Healthcare

Si vous prévoyez d'ingérer des données FHIR à partir de l'API Cloud Healthcare, assurez-vous de respecter les points suivants :