Indexer et actualiser des pages Web à l'aide de sitemaps

Si l'indexation avancée de sites Web est activée dans votre data store, vous pouvez envoyer et utiliser des sitemaps pour indexer et actualiser les pages Web de votre data store. Cette fonctionnalité n'est compatible qu'avec les sitemaps XML et les indices de sitemaps.

Cette page explique comment envoyer un sitemap ou un index de sitemap pour déclencher l'indexation et l'actualisation basées sur les sitemaps. Pour comprendre et implémenter l'actualisation automatique et manuelle sans sitemap, consultez la section Actualiser les pages Web.

De plus, cette page explique comment afficher les sitemaps dans votre data store ou supprimer un sitemap.

Concepts d'actualisation basés sur un sitemap

Voici quelques concepts et termes clés qui vous aideront à vous lancer:

  • Protocole Sitemap: tous les sitemaps et les indices de sitemaps compatibles avec Vertex AI Search doivent respecter le protocole Sitemap.

  • Sitemap: fichier XML encodé en UTF-8 contenant une liste des URL des pages Web et des fichiers de votre site Web, ainsi que d'autres informations importantes, mais facultatives, telles que la date de la dernière modification de la page Web et la priorité de la page Web pour un robot d'exploration par rapport aux autres pages Web de votre site Web. Selon le protocole Sitemap, un sitemap ne peut contenir au maximum que 50 000 URL et ne peut pas dépasser 50 Mo.

  • Index de sitemap: lorsque votre sitemap dépasse le nombre maximal d'URL ou la taille maximale, vous pouvez créer plusieurs sitemaps et les lister dans un fichier d'index de sitemaps. Conformément au protocole Sitemap, un seul index de sitemap peut imbriquer un maximum de 50 000 sitemaps et ne peut pas dépasser 50 Mo.

Vous pouvez envoyer un ou plusieurs sitemaps, un ou plusieurs indices de sitemaps, ou une combinaison de sitemaps et d'indices de sitemaps à la recherche Vertex AI.

Lorsque vous envoyez votre sitemap ou votre index de sitemap au data store de Vertex AI Search, vous déclenchez les actions suivantes:

  • Indexation des URL incluses dans l'index de votre data store.

    • Pour une actualisation limitée au sitemap, cette liste ne contient que les URL du sitemap ou de l'index de sitemaps qui correspondent au format d'URL inclus dans votre data store.
    • Pour une actualisation combinée, cette liste contient toutes les URL détectées par le processus d'actualisation automatique.

    Pour en savoir plus sur ces deux processus d'actualisation, consultez les pages Méthodes d'actualisation du data store du site Web et Actualisation du sitemap uniquement.

  • Actualisation quotidienne des URL incluses

Méthodes d'actualisation du data store du site Web

Vous pouvez choisir l'une des méthodes suivantes pour intégrer l'actualisation basée sur un sitemap dans votre data store:

  • Actualisation basée sur le sitemap uniquement: utilisez uniquement l'actualisation basée sur le sitemap en désactivant l'indexation initiale et l'actualisation automatique.
  • Actualisation combinée: utilisez l'actualisation basée sur le sitemap avec l'indexation initiale et l'actualisation automatique.

Vous pouvez actualiser manuellement des pages Web spécifiques de l'index de votre data store à tout moment, quelle que soit la méthode d'actualisation que vous choisissez.

Actualisation uniquement à partir du sitemap

Lorsque vous créez un data store de site Web, vous devez fournir des modèles d'URL pour les pages Web que vous souhaitez inclure dans l'index de votre data store. Par défaut, lorsque vous avez terminé de créer un data store de site Web, Vertex AI Search génère un indice initial pour ces pages Web incluses.

Pour les datastores de données de site Web avec indexation avancée de site Web, le processus d'indexation initial fait partie de l'actualisation automatique. Le processus d'indexation initial indexe toutes les URL incluses disponibles dans la recherche Google. La fraîcheur initiale de ces URL reflète la fraîcheur disponible dans la recherche Google. Après l'indexation initiale, le processus d'actualisation automatique détecte les nouvelles pages et les actualise de la manière la plus optimale possible. Cela peut entraîner des pages relativement obsolètes et un indice plus volumineux, car ce processus découvre des URL qui peuvent dépasser ce qui est nécessaire.

Vous pouvez plutôt choisir d'effectuer une actualisation du sitemap uniquement, ce qui est utile dans les cas suivants:

  • Vous disposez d'un sitemap à jour et bien entretenu.
  • Vous disposez d'un site Web volumineux et vous avez besoin de contrôler plus étroitement les pages Web qui sont indexées. Vous obtenez ainsi un indice plus léger et plus facile à gérer.
  • Vous devez actualiser vos pages indexées quotidiennement. Vous obtenez ainsi un indice plus récent.

Le tableau suivant compare les différentes méthodes d'actualisation de l'index du data store:

Méthode d'actualisation Précision Intervention manuelle Fréquence Discovery
Actualisation basée sur un sitemap Exact. N'indexe que les URL des sitemaps. Non obligatoire après l'envoi du sitemap ou de l'index de sitemap Tous les jours et non au-delà de celles spécifiées dans le sitemap.
Actualisation manuelle (également appelée réexploration) Exact. N'indexe que les URL spécifiées dans la requête de réexploration. Obligatoire À la demande Non.
Actualisation automatique Pas tout à fait. Le data store est actualisé de la manière la plus optimale possible. Non obligatoire Aléatoire et au mieux de nos capacités Oui. Il découvre des URL au-delà de celles disponibles dans la recherche Google.

Avant de commencer

Avant d'envoyer un sitemap ou un index de sitemaps au data store Vertex AI Search:

  • Créez un sitemap XML ou un index de sitemaps qui référence tous les sitemaps de votre site Web conformément au protocole Sitemap.
  • Sachez que pour envoyer un sitemap ou un index de sitemap au data store de recherche Vertex AI, il n'est pas nécessaire qu'ils soient envoyés à la recherche Google.
  • Toutes les URL de votre sitemap que vous souhaitez indexer doivent appartenir à des domaines publics validés dans votre data store. Pour en savoir plus, consultez Valider les domaines de sites Web.
  • L'URI du sitemap ou l'URI de l'index de sitemap avec les URI de sitemap imbriqués doivent être accessibles au public.

Envoyer un sitemap ou un index de sitemap à un data store

Pour déclencher l'indexation et l'actualisation des pages Web incluses dans votre entrepôt de données, procédez comme suit:

  1. Décidez si vous souhaitez effectuer une actualisation uniquement à l'aide d'un sitemap ou une actualisation combinée à d'autres méthodes.

  2. Pour effectuer une actualisation du sitemap uniquement, suivez cette étape, sinon passez à l'étape suivante.

    Vous ne pouvez pas utiliser un data store existant qui a un indexage et un rafraîchissement initiaux. Vous devez créer un nouveau data store en désactivant l'indexation initiale et l'actualisation automatique à l'aide de la configuration AdvancedSiteSearchConfig.

    REST

    Créez un data store dans lequel seule l'actualisation du sitemap est activée. Pour ce faire, désactivez l'index initial et l'actualisation automatique.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \
    -d '{
       "displayName": "DATA_STORE_DISPLAY_NAME",
       "industryVertical": "GENERIC",
       "content_config": "PUBLIC_WEBSITE",
       "searchTier": "ENTERPRISE",
       "advancedSiteSearchConfig": {
          "disableInitialIndex": true,
          "disableAutomaticRefresh": true,
       }
    }'
    

    Remplacez les éléments suivants :

    • PROJECT_ID : ID de votre projet Google Cloud
    • DATA_STORE_ID: ID du data store Vertex AI Search que vous souhaitez créer. Cet identifiant ne peut contenir que des lettres minuscules, des chiffres, des traits de soulignement et des traits d'union.
    • DATA_STORE_DISPLAY_NAME: nom à afficher du data store Vertex AI Search que vous souhaitez créer.

  3. Modifiez les modèles d'URL des sites à inclure et à exclure dans votre entrepôt de données. Pour en savoir plus, consultez Créer un data store à l'aide du contenu d'un site Web.

  4. Vérifiez les domaines des pages Web incluses dans votre data store.

  5. Que vous choisissiez une actualisation uniquement du sitemap ou une actualisation combinée, envoyez un URI de sitemap ou d'index de sitemap à un data store à l'aide de la méthode sitemaps.create.

    REST

    Envoyez un sitemap ou un fichier d'index de sitemaps.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_NUMBER" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
    

    Remplacez les éléments suivants :

    • PROJECT_ID : ID de votre projet Google Cloud
    • DATA_STORE_ID: ID du data store Vertex AI Search.
    • SITEMAP_URI: URI public du sitemap individuel ou de l'index de sitemap que vous souhaitez envoyer. Lorsque vous envoyez un index de sitemap, il vous suffit d'envoyer l'URI de l'index de sitemap. La recherche Vertex AI indexe automatiquement les URL incluses dans tous les sitemaps imbriqués dans l'index de sitemaps.

    Une fois que vous avez envoyé le sitemap ou l'index de sitemap au data store, Vertex AI Search déclenche les actions suivantes:

    • Indexation des URL éligibles dans le sitemap (celles qui sont incluses dans votre data store). Cette opération peut prendre quelques heures. L'indexation des sitemaps volumineux peut prendre plus de temps.
    • Actualisation quotidienne des pages Web avec des URL éligibles.

    Pour savoir comment les modifications apportées au sitemap ou à l'index de sitemap affectent l'actualisation, consultez Modifications apportées au sitemap et à l'index de sitemap.

  6. Affichez les sitemaps de votre data store.

Modifications apportées au sitemap et à l'index de sitemap

Après l'envoi initial, Vertex AI Search détecte quotidiennement les modifications apportées à votre sitemap ou à votre index de sitemap, et les traite comme suit:

  • Modifications apportées à un sitemap :
    • Lorsque vous ajoutez des URL: les URL correspondant au format d'URL inclus pour le magasin de données sont ajoutées à l'index et actualisées quotidiennement.
    • Lorsque vous supprimez des URL: si les URL supprimées figurent dans l'index, elles sont supprimées de l'index et ne sont plus actualisées.
    • Lorsque vous mettez à jour les URL existantes (par exemple, lorsque vous mettez à jour le champ lastmod d'une URL dans le sitemap), toutes les URL mises à jour qui correspondent au format d'URL inclus pour le data store sont actualisées. L'actualisation a généralement lieu dans les 24 heures suivant la mise à jour.
  • Modifications apportées à un index de sitemap :
    • Lorsque vous ajoutez un sitemap: les URL du nouveau sitemap qui correspondent au format d'URL inclus pour le data store sont ajoutées à l'index et actualisées quotidiennement.
    • Lorsque vous supprimez un sitemap, les URL correspondant au format d'URL inclus pour le data store ne sont plus actualisées. Toutefois, elles restent dans l'index. Pour supprimer le sitemap et ses URL de l'index, consultez la page Supprimer un sitemap et ses URL de l'index.

Répertorier les sitemaps et les indices de sitemaps dans un data store

Pour répertorier tous les sitemaps et les index de sitemaps d'un data store, utilisez la méthode sitemaps.fetch. Si vous avez envoyé un index de sitemap, cette méthode renvoie l'index de sitemap et non les sitemaps individuels imbriqués. Si aucun sitemap n'est stocké dans le data store, cette requête renvoie un fichier JSON vide.

REST

Répertoriez les sitemaps et les indices de sitemaps dans un data store.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"

Remplacez les éléments suivants :

  • PROJECT_ID : ID de votre projet Google Cloud
  • DATA_STORE_ID: ID du data store Vertex AI Search.

Vérifier si un sitemap ou un index de sitemap est présent dans un data store

Pour vérifier si un sitemap ou un index de sitemap est présent dans un data store, utilisez la méthode sitemaps.fetch. Si le sitemap ou l'index de sitemap que vous vérifiez est envoyé au data store, la réponse contient le nom et l'URI du sitemap. Si vous avez envoyé un index de sitemaps, la recherche de sitemaps individuels dans l'index de sitemaps ne renverra pas les résultats corrects.

REST

Recherchez un sitemap ou un index de sitemap dans un data store.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"

Remplacez les éléments suivants :

  • PROJECT_ID : ID de votre projet Google Cloud
  • DATA_STORE_ID: ID du data store Vertex AI Search.
  • SITEMAP_URI_N: URI public du sitemap ou de l'index de sitemap que vous souhaitez vérifier dans le data store.

Supprimer un sitemap ou un index de sitemap du data store

Pour supprimer un sitemap du data store, utilisez la méthode sitemap.delete. La suppression d'un sitemap ne supprime pas ses URL de l'index. Pour supprimer le sitemap et ses URL de l'index, consultez Supprimer un sitemap et ses URL de l'index.

REST

Supprimez un sitemap ou un index de sitemap.

curl -X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"

Remplacez les éléments suivants :

Supprimer un sitemap ou un index de sitemap et ses URL de l'index du data store

Pour supprimer un sitemap ou un index de sitemap et ses URL de l'index, procédez comme suit:

  1. Videz le sitemap ou l'index de sitemaps envoyé au data store en supprimant toutes ses URL.

    Si vous avez envoyé un index de sitemaps au data store, videz les sitemaps imbriqués en supprimant toutes les URL, puis supprimez le sitemap de l'index de sitemaps.

  2. Attendez 48 heures pour que Vertex AI Search traite ces modifications et supprime les URL de l'index du data store.

  3. Supprimez le sitemap ou l'index de sitemap.