La façon dont vous préparez les données dépend du type de données que vous importez et de la façon dont vous choisissez de l'importer. Commencez par déterminer le type de données que vous prévoyez d'importer :
- Données du site Web
- Données non structurées
- Données structurées
- Sources de données tierces
- Données multimédias structurées
- Données FHIR Healthcare
Pour en savoir plus sur la recherche combinée, qui permet de connecter plusieurs data stores à une seule application de recherche générique, consultez la section Connecter plusieurs data stores.
Données de site Web
Lorsque vous créez un data store pour les données de votre site Web, vous fournissez les URL des pages Web que Google doit explorer et indexer pour la recherche ou les recommandations.
Avant d'indexer les données de votre site Web :
Définissez les formats d'URL à inclure dans votre indexation et ceux à exclure.
Excluez les formats d'URL dynamiques. Les URL dynamiques sont des URL qui lors de la diffusion, en fonction de la requête.
Par exemple, les formats d'URL des pages Web sur lesquelles apparaissent résultats, tels que
www.example.com/search/*
. Supposons qu'un utilisateur recherche la phraseNobel prize
. L'URL de recherche dynamique peut être une URL unique :www.example.com/search?q=nobel%20prize/UNIQUE_STRING
. Si le format d'URLwww.example.com/search/*
n'est pas exclu, toutes les URL de recherche dynamique uniques qui suivent ce format sont indexées. Par conséquent, l'index est surchargé et la qualité de la recherche est diluée.Éliminez les URL en double à l'aide de modèles d'URL canoniques. Vous bénéficiez ainsi une seule URL canonique pour la recherche Google lors de l'exploration du site Web et élimine toute ambiguïté. Pour obtenir des exemples de mise en forme canonique et plus consultez les articles Qu'est-ce que la mise en forme canonique des URL ? et Comment spécifier une URL canonique avec l'attribut rel="canonique" et d'autres méthodes.
Vous pouvez inclure des formats d'URL provenant du même domaine ou de différents domaines à indexer, et exclure les formats qui ne doivent pas être indexés. Le nombre de modèles d'URL que vous pouvez inclure et exclure diffère comme suit :
Type d'indexation Sites inclus Sites exclus Recherche de base sur un site Web 50 formats d'URL maximum 50 formats d'URL maximum Indexation avancée de site Web 500 formats d'URL maximum 500 formats d'URL maximum Vérifiez que les pages Web que vous prévoyez de fournir n'utilisent pas de fichier robots.txt pour les bloquer ou l'indexation. Pour en savoir plus, consultez Présentation du fichier robot.txt.
Si vous prévoyez d'utiliser l'indexation avancée de site Web, vous doivent pouvoir valider les domaines pour les formats d'URL dans votre data store.
Ajoutez des données structurées sous la forme de balises
meta
et de PageMap à vos schéma de data store pour enrichir votre indexation, comme expliqué dans Utilisez des données structurées pour l'indexation avancée de site Web.
Pour créer votre data store, consultez Créer un data store de recherche ou Créer un data store de recommandations.
Données non structurées
Vertex AI Search permet d'effectuer des recherches dans des documents au format HTML, PDF avec texte intégré et TXT. Les formats PPTX et DOCX sont disponibles en version Preview.
Vous importez vos documents à partir d'un bucket Cloud Storage
bucket. Vous pouvez effectuer l'importation à l'aide de la console Google Cloud
ImportDocuments
ou par ingestion en flux continu
via des méthodes CRUD.
Pour en savoir plus sur les références de l'API, consultez DocumentService et documents
.
Les fichiers HTML et TXT doivent être inférieurs à 2,5 Mo. Les fichiers PDF, PPTX et DOCX ne doivent pas dépasser 100 Mo. Vous pouvez importer jusqu'à 100 000 fichiers à la fois.
Si vous prévoyez d'inclure des représentations vectorielles continues dans vos données non structurées, consultez la section Utiliser des représentations vectorielles continues personnalisées.
Si vous avez des PDF dans lesquels il n'est pas possible d'effectuer des recherches (PDF scannés ou PDF contenant du texte dans des images, comme les infographies), nous vous conseillons d'activer la reconnaissance optique des caractères lors de la création du data store. Cela permet à Vertex AI Search d'extraire des éléments tels que des blocs de texte et des tableaux. Si vous avez des PDF inclus dans l'index de recherche qui sont pour la plupart composés de documents et contiennent de nombreux tableaux, vous pouvez activer le traitement OCR l'option de texte lisible par un ordinateur activée afin d'améliorer la détection et de l'analyse. Pour en savoir plus, consultez Analyser et diviser les documents.
Si vous souhaitez utiliser Vertex AI Search pour la génération augmentée de récupération (RAG), activez le découpage de documents lorsque vous créez votre datastore. Pour plus plus d'informations, consultez la section Analyser et diviser des documents.
Vous pouvez importer des données non structurées à partir des sources suivantes:
Cloud Storage
Vous pouvez importer des données depuis Cloud Storage avec ou sans métadonnées.
L'importation de données n'est pas récursive. Autrement dit, si le bucket ou le dossier que vous spécifiez contient des dossiers, les fichiers de ces dossiers ne sont pas importés.
Si vous envisagez d'importer des documents depuis Cloud Storage sans métadonnées, placez votre des documents directement dans un bucket Cloud Storage. L'ID du document est un exemple de métadonnées.
Pour les tests, vous pouvez utiliser l'espace de stockage Cloud Storage public suivant des dossiers contenant des PDF:
gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224
Si vous envisagez d'importer des données à partir de Cloud Storage avec des métadonnées, placez un fichier JSON qui contient les métadonnées dans un bucket Cloud Storage dont vous fournies lors de l'importation.
Vos documents non structurés peuvent se trouver dans le même bucket Cloud Storage que vos métadonnées ou dans un autre.
Le fichier de métadonnées doit être un fichier JSON Lines ou NDJSON. L'ID du document est un exemple de métadonnées. Chaque ligne du fichier de métadonnées doit suivre l'un des formats JSON suivants :
- En utilisant
jsonData
:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
- Avec
structData
:{ "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
Utilisez le champ uri
de chaque ligne pour indiquer l'emplacement Cloud Storage
le document.
Voici un exemple de fichier de métadonnées NDJSON pour un document non structuré. Dans cet exemple, chaque ligne du fichier de métadonnées pointe vers un document PDF et contient les métadonnées de ce document. Les deux premières lignes utilisent jsonData
et
les deux autres lignes utilisent structData
. Avec structData
, vous n'avez pas besoin de
Échappez les guillemets qui apparaissent entre guillemets.
{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}
Pour créer votre data store, consultez Créer un data store de recherche. Créez un data store de recommandations.
BigQuery
Si vous envisagez d'importer des métadonnées à partir de BigQuery, créez un Table BigQuery contenant des métadonnées. L'ID du document est un exemple de métadonnées.
Placez vos documents non structurés dans un bucket Cloud Storage.
Utilisez le schéma BigQuery suivant. Utilisez le champ uri
dans chaque enregistrement pour faire pointer vers l'emplacement Cloud Storage du document.
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
},
{
"name": "content",
"type": "RECORD",
"mode": "NULLABLE",
"fields": [
{
"name": "mimeType",
"type": "STRING",
"mode": "NULLABLE"
},
{
"name": "uri",
"type": "STRING",
"mode": "NULLABLE"
}
]
}
]
Pour en savoir plus, consultez la section Créer et utiliser des tables dans la documentation BigQuery.
Pour créer votre data store, consultez Créer un data store de recherche ou Créer un data store de recommandations.
Google Drive
La synchronisation des données à partir de Google Drive est compatible avec la recherche générique.
Si vous envisagez d'importer des données depuis Google Drive, vous devez configurer l'identité Google en tant que fournisseur d'identité dans Vertex AI Agent Builder. Pour en savoir plus sur la configuration du contrôle des accès, consultez Utiliser le contrôle des accès des sources de données.
Pour créer votre data store, consultez Créer un data store de recherche.
Données structurées
Préparez vos données en fonction de la méthode d'importation que vous prévoyez d'utiliser. Si vous prévoyez d'ingérer des données multimédias, consultez également la section Données multimédias structurées.
Vous pouvez importer des données structurées à partir des sources suivantes :
- BigQuery
- Cloud Storage
- Données JSON locales
- Sources de données tierces (version Preview avec liste d'autorisation)
Lorsque vous importez des données structurées depuis BigQuery ou Cloud Storage, vous avez la possibilité de les importer avec des métadonnées. (Les données structurées avec métadonnées sont également appelées données structurées améliorées.)
BigQuery
Vous pouvez importer des données structurées à partir d'ensembles de données BigQuery.
Votre schéma est détecté automatiquement. Après l'importation, Google vous recommande de modifier le schéma détecté automatiquement pour mapper les propriétés clés, telles que les titres. Si vous effectuez une importation à l'aide de l'API au lieu de la console Google Cloud, vous pouvez fournir votre propre schéma en tant qu'objet JSON. Pour en savoir plus, consultez Fournissez ou détectez automatiquement un schéma.
Pour obtenir des exemples de données structurées accessibles au public, consultez les Ensembles de données publics BigQuery.
Si vous prévoyez d'inclure des représentations vectorielles continues dans vos données structurées, consultez la section Utiliser des représentations vectorielles continues personnalisées.
Si vous choisissez d'importer des données structurées avec des métadonnées, vous incluez deux champs dans vos tables BigQuery:
Un champ
id
pour identifier le document. Si vous importez des données structurées sans métadonnées,id
est généré pour vous. L'inclusion de métadonnées vous permet de spécifier la valeur deid
.Un champ
jsonData
contenant les données. Pour obtenir des exemples de chaînesjsonData
, consultez la section précédente sur Cloud Storage.
Utilisez le schéma BigQuery suivant pour les données structurées avec des importations de métadonnées :
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
}
]
Pour savoir comment créer votre data store, consultez Créer un data store de recherche ou Créer un data store de recommandations.
Cloud Storage
Les données structurées dans Cloud Storage doivent être au format JSON Lines ou NDJSON. La taille de chaque fichier ne doit pas dépasser 2 Go. Vous pouvez importer jusqu'à 100 fichiers à la fois.
Pour obtenir des exemples de données structurées accessibles au public, consultez les ressources suivantes : Dossiers Cloud Storage contenant des fichiers NDJSON:
gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
gs://cloud-samples-data/gen-app-builder/search/austin_311
Si vous prévoyez d'inclure des représentations vectorielles continues dans vos données structurées, consultez la section Utiliser des représentations vectorielles continues personnalisées.
Voici un exemple de fichier de métadonnées NDJSON de données structurées. Chaque ligne du fichier représente un document et est composée d'un ensemble de champs.
{"hotel_id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"hotel_id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"hotel_id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}
Pour créer votre data store, consultez Créer un data store de recherche ou Créer un data store de recommandations.
Données JSON locales
Vous pouvez importer directement un document ou un objet JSON à l'aide de l'API.
Pour obtenir de meilleurs résultats, Google vous recommande de fournir votre propre schéma en tant qu'objet JSON. Si vous ne fournissez pas votre propre schéma, il est détecté automatiquement. Après l'importation, nous vous recommandons de modifier le schéma détecté automatiquement pour mapper les propriétés clés, telles que les titres. Pour en savoir plus, consultez Fournissez ou détectez automatiquement un schéma.
Si vous prévoyez d'inclure des représentations vectorielles continues dans vos données structurées, consultez Utiliser des représentations vectorielles continues personnalisées.
Pour créer votre data store, consultez Créer un data store de recherche. Créez un data store de recommandations.
Données multimédias structurées
Si vous prévoyez d'ingérer des données multimédias structurées, telles que des vidéos, des actualités ou de la musique, consultez les points suivants :
- Informations sur votre méthode d'importation (BigQuery ou Cloud Storage) : Données structurées
- Schémas et champs obligatoires pour les documents multimédias et les data stores: À propos des documents multimédias et des data stores
- Exigences et schémas concernant les événements utilisateur : À propos des événements utilisateur
- Informations sur les types de recommandations multimédias : À propos des types de recommandations multimédias
Sources de données tierces
L'ingestion à partir de sources de données tierces est disponible en preview avec la fonctionnalité de liste d'autorisation.
Les connexions à des sources de données tierces sont compatibles avec la recherche générique.
Lorsque vous connectez une source de données tierce, les données sont initialement ingérées sont ensuite synchronisées avec Vertex AI Search à la fréquence que vous spécifiez.
Avant de configurer la connexion à votre source de données, vous devez configurer le contrôle des accès pour votre source de données. Pour en savoir plus sur la configuration du contrôle des accès, consultez Utilisez le contrôle des accès aux sources de données.
Pour connaître les identifiants requis pour connecter une source de données, consultez la documentation sur la connexion de la source de données tierce à partir de laquelle vous prévoyez d'ingérer des données :
Données FHIR Healthcare
Si vous prévoyez d'ingérer des données FHIR à partir de l'API Cloud Healthcare, assurez-vous de respecter les points suivants :
- Emplacement: le store FHIR source doit se trouver dans un ensemble de données de l'API Cloud Healthcare
à l'emplacement
us-central1
,us
oueu
. Pour en savoir plus, consultez Créez et gérez des ensembles de données dans l'API Cloud Healthcare. - Type de magasin FHIR : le magasin FHIR source doit être un magasin de données R4. Vous pouvez Pour vérifier les versions de vos stores FHIR, répertoriez-les dans votre ensemble de données. Pour créer un magasin FHIR R4, consultez Créer des magasins FHIR.
- Quota d'importation : le magasin FHIR source ne doit pas comporter plus d'un million de ressources FHIR. Si le nombre de ressources FHIR dépasse un million, le processus d'importation s'arrête une fois cette limite atteinte. Pour en savoir plus, consultez la page Quotas et limites.
- Les fichiers référencés dans une ressource
DocumentReference
doivent être au format PDF, RTF, ou image stockés dans Cloud Storage. Le lien vers les fichiers référencés doit se trouver dans le champcontent[].attachment.url
de la ressource au format de chemin d'accès Cloud Storage standard:gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE
- Consulter la liste des ressources FHIR R4 compatibles avec Vertex AI Search compatibles. Pour en savoir plus, consultez la documentation de référence sur le schéma de données FHIR R4 pour le secteur de la santé.