Indexar y actualizar páginas web mediante sitemaps

Si la indexación avanzada de sitios web está habilitada en su almacén de datos, puede enviar y usar sitemaps para indexar y actualizar las páginas web de su almacén de datos. Esta función solo admite sitemaps y archivos de índice de sitemaps XML.

En esta página se describe cómo enviar un sitemap o un índice de sitemaps para activar la indexación y la actualización basadas en sitemaps. Para saber cómo implementar la actualización automática y manual sin un sitemap, consulta Actualizar páginas web.

Además, en esta página se describe cómo ver los sitemaps de tu almacén de datos o eliminar un sitemap.

Conceptos de actualización basada en sitemaps

Estos son algunos conceptos y términos clave que te ayudarán a empezar:

  • Protocolo de sitemaps: todos los sitemaps y los índices de sitemaps que admite Vertex AI Search deben seguir el protocolo de sitemaps.

  • Sitemap: un archivo XML con codificación UTF-8 que contiene una lista de URLs de las páginas web y los archivos de su sitio web, así como otra información importante, aunque opcional, como la fecha de la última modificación de la página web y la prioridad de la página web para un rastreador en comparación con otras páginas web de su sitio web. Según el protocolo de sitemaps, un sitemap puede contener un máximo de 50.000 URLs y tener un tamaño máximo de 50 MB.

  • Índice de sitemap: si tu sitemap supera el número máximo de URLs o el tamaño máximo, puedes crear varios sitemaps e incluirlos en un archivo de índice de sitemap. Según el protocolo de sitemaps, un solo índice de sitemap puede anidar un máximo de 50.000 sitemaps y tener un tamaño máximo de 50 MB.

Puede enviar uno o varios sitemaps, uno o varios índices de sitemaps, o una combinación de sitemaps e índices de sitemaps a Vertex AI Search.

Cuando envías tu sitemap o índice de sitemap al almacén de datos de Vertex AI Search, se activan las siguientes acciones:

  • Indexación de las URLs incluidas en el índice de tu almacén de datos.

    • Si solo se actualiza el sitemap, esta lista solo contiene las URLs del sitemap o del índice de sitemaps que coincidan con el patrón de URL incluido en su almacén de datos.
    • En el caso de una actualización combinada, esta lista contiene todas las URLs que descubre el proceso de actualización automática.

    Para obtener más información sobre estos dos procesos de actualización, consulta los artículos Métodos de actualización del almacén de datos del sitio web y Actualización solo del sitemap.

  • Actualización diaria de las URLs añadidas, eliminadas y actualizadas del sitemap. Por ejemplo, cuando actualiza el campo lastmod de una URL en el sitemap.

  • Actualización periódica de las URLs sin cambios cada 14 días.

Métodos de actualización de almacenes de datos de sitios web

Puede elegir una de las siguientes formas de incorporar la actualización basada en sitemaps en su almacén de datos:

  • Actualización solo con sitemap: usa la actualización basada en sitemaps exclusivamente desactivando la indexación inicial y la actualización automática.
  • Actualización combinada: usa la actualización basada en sitemaps con la indexación inicial y la actualización automática.

Puede actualizar manualmente páginas web específicas en el índice de su almacén de datos en cualquier momento, independientemente del método de actualización que elija.

Actualización solo de sitemaps

Cuando creas un almacén de datos de sitio web, debes proporcionar patrones de URL de las páginas web que quieras incluir en el índice del almacén de datos. De forma predeterminada, cuando terminas de crear un almacén de datos de sitio web, Vertex AI Search genera un índice inicial para las páginas web incluidas.

En el caso de los almacenes de datos de sitios web con indexación avanzada de sitios web, el proceso de indexación inicial forma parte de la actualización automática. El proceso de indexación inicial indexa todas las URLs incluidas que están disponibles en la Búsqueda de Google. La actualización inicial de estas URLs refleja la actualización disponible en la Búsqueda de Google. Después de la indexación inicial, el proceso de actualización automática descubre páginas nuevas y las actualiza de la mejor forma posible. Esto puede dar lugar a páginas relativamente obsoletas y a un índice más voluminoso, ya que este proceso descubre URLs que pueden ir más allá de lo necesario.

En su lugar, puede actualizar solo el sitemap, lo que resulta útil en los siguientes casos:

  • Tienes un sitemap actualizado y bien mantenido.
  • Tienes un sitio web grande y necesitas controlar mejor qué páginas web se indexan. De esta forma, el índice es más ligero y fácil de gestionar.
  • Debe actualizar las páginas añadidas y modificadas a diario, así como eliminar las páginas que haya borrado. De este modo, se obtiene un índice más actualizado que refleja el sitemap.

En la siguiente tabla se comparan los diferentes métodos que actualizan el índice del almacén de datos:

Método de actualización Precisión Intervención manual Frecuencia Discovery
Actualización basada en sitemaps Exacto. Solo indexa las URLs de los sitemaps. No es necesario después de enviar el sitemap o el índice de sitemaps Diariamente para las URLs añadidas, eliminadas y actualizadas del sitemap. 14 días para las URLs sin cambios No se pueden incluir más de las especificadas en el sitemap.
Actualización manual (también conocida como "volver a rastrear") Exacto. Indexa solo las URLs especificadas en la solicitud de nuevo rastreo. Obligatorio Bajo demanda No.
Actualización automática No es exacto. El almacén de datos se actualiza en la medida de lo posible. No es obligatorio Aleatorio y en la medida de lo posible Sí. Descubre URLs que no están disponibles en la Búsqueda de Google.

Antes de empezar

Antes de enviar un sitemap o un índice de sitemaps al almacén de datos de Vertex AI Search, haz lo siguiente:

  • Crea un sitemap XML o un índice de sitemaps que haga referencia a todos los sitemaps de tu sitio web según el protocolo de sitemaps.

  • Ten en cuenta que, para enviar un sitemap o un índice de sitemap al almacén de datos de búsqueda de Vertex AI, no es necesario enviarlos a la Búsqueda de Google.

  • Todas las URLs de su sitemap que quiera indexar deben pertenecer a dominios públicos verificados en su almacén de datos. Para obtener más información, consulta Verificar dominios de sitios web.

  • El URI del sitemap o el URI del índice de sitemap con los URIs de sitemap anidados deben estar disponibles públicamente.

  • Si usa el archivo robots.txt en su sitio web, actualícelo. Para obtener más información, consulta cómo preparar el archivo robots.txt de tu sitio web.

Enviar un sitemap o un índice de sitemaps a un almacén de datos

Para activar la indexación y la actualización de las páginas web incluidas en tu almacén de datos, sigue estos pasos:

  1. Decide si quieres actualizar solo el sitemap o combinar la actualización con otros métodos.

  2. Para actualizar solo el sitemap, sigue este paso. De lo contrario, ve al siguiente.

    No puedes usar un almacén de datos que ya tenga indexación y actualización iniciales. Para crear un nuevo almacén de datos, debes desactivar la indexación inicial y la actualización automática mediante la configuración AdvancedSiteSearchConfig.

    REST

    Crea un almacén de datos en el que solo esté habilitada la actualización del sitemap. Para ello, desactiva el índice inicial y la actualización automática.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \
    -d '{
       "displayName": "DATA_STORE_DISPLAY_NAME",
       "industryVertical": "GENERIC",
       "content_config": "PUBLIC_WEBSITE",
       "searchTier": "ENTERPRISE",
       "advancedSiteSearchConfig": {
          "disableInitialIndex": true,
          "disableAutomaticRefresh": true,
       }
    }'
    

    Haz los cambios siguientes:

    • PROJECT_ID: el ID de tu proyecto de Google Cloud .
    • DATA_STORE_ID: el ID del almacén de datos de Vertex AI Search que quieres crear. Este ID solo puede contener letras en minúscula, números, guiones bajos y guiones.
    • DATA_STORE_DISPLAY_NAME: el nombre visible del almacén de datos de Vertex AI Search que quieres crear.

  3. Actualiza los patrones de URL de los sitios que quieras incluir y excluir en tu almacén de datos. Para obtener más información, consulta el artículo sobre cómo crear un almacén de datos con contenido de un sitio web.

  4. Verifica los dominios de las páginas web incluidas en tu almacén de datos.

  5. Tanto si eliges actualizar solo el sitemap como si prefieres una combinación de actualizaciones, envía un URI de sitemap o de índice de sitemap a un almacén de datos mediante el método sitemaps.create.

    REST

    Envíe un sitemap o un índice de sitemaps.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_NUMBER" \
    "https://discoveryengine.googleapis.com/v1/projects/PROJECT_NUMBER/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
    

    Haz los cambios siguientes:

    • PROJECT_ID: el ID de tu proyecto de Google Cloud .
    • DATA_STORE_ID: el ID del almacén de datos de Vertex AI Search.
    • SITEMAP_URI: el URI público del sitemap o del índice de sitemaps que quieras enviar. Cuando envías un índice de sitemaps, basta con enviar el URI del índice de sitemaps. Vertex AI Search indexa automáticamente las URLs incluidas en todos los sitemaps anidados en el índice de sitemaps.

    Después de enviar el sitemap o el índice de sitemaps al almacén de datos, Vertex AI Search activa lo siguiente:

    • Una indexación de las URLs aptas del sitemap, es decir, las que se incluyen en tu almacén de datos. Este proceso tarda unas horas de media en completarse. Los sitemaps más grandes pueden tardar más en indexarse.
    • Una actualización diaria de las páginas web con URLs aptas.

    Para saber cómo afectan a la actualización las modificaciones del sitemap o del índice de sitemaps, consulta Cambios en el sitemap y en el índice de sitemaps.

  6. Consulta los mapas del sitio de tu almacén de datos.

Cambios en el sitemap y en el índice de sitemaps

Después del envío inicial, Vertex AI Search detecta las modificaciones en tu sitemap o índice de sitemap a diario y las gestiona de la siguiente manera:

  • Cambios en un sitemap:
    • Cuando añada URLs, las que coincidan con el patrón de URLs incluidas de la tienda de datos se añadirán al índice y se actualizarán a diario.
    • Cuando quitas URLs: si las URLs retiradas están en el índice, se quitan del índice y ya no se actualizan.
    • Cuando actualizas las URLs que ya tienes (por ejemplo, cuando actualizas el campo lastmod de una URL del sitemap), se actualizan todas las URLs que coincidan con el patrón de URLs incluidas del almacén de datos. La actualización suele producirse en un plazo de 24 horas después de la actualización.
  • Cambios en un índice de sitemap:
    • Cuando añade un sitemap, las URLs del nuevo sitemap que coinciden con el patrón de URLs incluidas del almacén de datos se añaden al índice y se actualizan a diario.
    • Cuando eliminas un sitemap, las URLs que coinciden con el patrón de URLs incluidas del almacén de datos dejan de actualizarse. Sin embargo, siguen estando en el índice. Para quitar el sitemap y sus URLs del índice, consulta el artículo Quitar un sitemap y sus URLs del índice.

Lista los sitemaps y los índices de sitemaps de un almacén de datos

Para enumerar todos los sitemaps y los índices de sitemaps de un almacén de datos, usa el método sitemaps.fetch. Si ha enviado un índice de sitemaps, este método devuelve el índice de sitemaps y no los sitemaps anidados individuales. Si no hay mapas del sitio en el almacén de datos, esta solicitud devuelve un archivo JSON vacío.

REST

Muestra los sitemaps y los índices de sitemaps de un almacén de datos.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"

Haz los cambios siguientes:

  • PROJECT_ID: el ID de tu proyecto de Google Cloud .
  • DATA_STORE_ID: el ID del almacén de datos de Vertex AI Search.

Comprobar si hay un sitemap o un índice de sitemaps en un almacén de datos

Para comprobar si un sitemap o un índice de sitemaps está presente en un almacén de datos, utiliza el método sitemaps.fetch. Si el sitemap o el índice de sitemaps que está comprobando se ha enviado al almacén de datos, la respuesta contendrá el nombre y el URI del sitemap. Si ha enviado un índice de sitemaps, no obtendrá los resultados correctos si comprueba los sitemaps individuales que contiene.

REST

Buscar un sitemap o un índice de sitemaps en un almacén de datos.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"

Haz los cambios siguientes:

  • PROJECT_ID: el ID de tu proyecto de Google Cloud .
  • DATA_STORE_ID: el ID del almacén de datos de Vertex AI Search.
  • SITEMAP_URI_N: el URI público del sitemap o del índice de sitemaps que quieras consultar en el almacén de datos.

Eliminar un sitemap o un índice de sitemap del almacén de datos

Para eliminar un sitemap del almacén de datos, utiliza el método sitemap.delete. Si elimina un sitemap, sus URLs no se quitarán del índice. Para quitar el sitemap y sus URLs del índice, consulta el artículo Quitar un sitemap y sus URLs del índice.

REST

Elimina un sitemap o un índice de sitemaps.

curl -X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"

Haz los cambios siguientes:

Quitar un sitemap o un índice de sitemaps y sus URLs del índice del almacén de datos

Para quitar un sitemap o un índice de sitemaps y sus URLs del índice, sigue estos pasos:

  1. Vacía el sitemap o el índice de sitemaps que se haya enviado al almacén de datos eliminando todas sus URLs.

    Si ha enviado un índice de sitemaps al almacén de datos, vacíe los sitemaps anidados eliminando todas las URLs y quite el sitemap del índice de sitemaps.

  2. Espera 48 horas para que Vertex AI Search procese estos cambios y elimine las URLs del índice del almacén de datos.

  3. Elimina el sitemap o el índice de sitemaps.