Indexa y actualiza páginas web con mapas del sitio

Si la indexación avanzada de sitios web está habilitada en tu almacén de datos, puedes enviar y usar mapas del sitio para indexar y actualizar las páginas web en tu almacén de datos. Esta función solo admite mapas del sitio y índices de mapas del sitio en formato XML.

En esta página, se describe cómo enviar un mapa del sitio o un índice de mapa del sitio para activar la indexación y actualización basadas en el mapa del sitio. Para comprender y implementar la actualización automática y manual sin un mapa del sitio, consulta Cómo actualizar páginas web.

Además, en esta página se describe cómo ver los mapas del sitio en tu almacén de datos o borrarlos.

Conceptos de actualización basados en el mapa del sitio

Estos son algunos conceptos y términos clave que te ayudarán a comenzar:

  • Protocolo de mapas del sitio: Todos los mapas del sitio y los índices de mapas del sitio que admite Vertex AI Search deben seguir el protocolo de mapas del sitio.

  • Mapa del sitio: Es un archivo XML codificado en UTF-8 que contiene una lista de URLs de las páginas web y los archivos de tu sitio web con otra información importante, pero opcional, como la fecha de la última modificación de la página web y la prioridad de la página web para un rastreador en comparación con otras páginas web de tu sitio web. Según el protocolo de mapas del sitio, un solo mapa del sitio puede contener un máximo de 50,000 URLs y un máximo de 50 MB.

  • Índice de mapas del sitio: Cuando tu mapa del sitio supera la cantidad máxima de URLs o el tamaño máximo, puedes crear varios mapas del sitio y enumerarlos en un archivo de índice de mapas del sitio. Según el protocolo de mapas del sitio, un solo índice de mapa del sitio puede anidar un máximo de 50,000 mapas del sitio y tener un máximo de 50 MB.

Puedes enviar uno o más mapas del sitio, uno o más índices de mapas del sitio o una combinación de mapas del sitio y de índices de mapas del sitio a la Búsqueda de Vertex AI.

Cuando envías tu mapa del sitio o su índice al almacén de datos de Vertex AI Search, activarás las siguientes acciones:

  • Indexación de las URLs incluidas en el índice de tu almacén de datos

    • Para una actualización solo de mapas del sitio, esta lista contiene solo las URLs del mapa del sitio o del índice del mapa del sitio que se ajustan al patrón de URL incluido en tu almacén de datos.
    • Para una actualización combinada, esta lista contiene todas las URLs que descubre el proceso de actualización automática.

    Para obtener más información sobre estos dos procesos de actualización, consulta Métodos de actualización del almacén de datos de sitios web y Actualización solo del mapa del sitio.

  • Actualización diaria de las URLs incluidas

Métodos de actualización del almacén de datos del sitio web

Puedes elegir una de las siguientes formas para incorporar la actualización basada en el mapa del sitio en tu almacén de datos:

  • Actualización solo con mapas del sitio: Usa la actualización basada en mapas del sitio exclusivamente. Para ello, desactiva la indexación inicial y la actualización automática.
  • Actualización combinada: Usa la actualización basada en el mapa del sitio con la indexación inicial y la actualización automática.

Puedes actualizar manualmente páginas web específicas en el índice de tu almacén de datos en cualquier momento, independientemente del método de actualización que elijas.

Actualización solo del mapa del sitio

Cuando creas un almacén de datos de sitios web, debes proporcionar patrones de URL para las páginas web que deseas incluir en el índice de tu almacén de datos. De forma predeterminada, cuando terminas de crear un almacén de datos de sitio web, Vertex AI Search genera un índice inicial para estas páginas web incluidas.

En el caso de los almacenes de datos de sitios web con indexación avanzada, el proceso de indexación inicial forma parte de la actualización automática. El proceso de indexación inicial indexa todas las URLs incluidas que están disponibles en la Búsqueda de Google. La actualización inicial de estas URLs replica la actualización disponible en la Búsqueda de Google. Después de la indexación inicial, el proceso de actualización automática descubre páginas nuevas y las actualiza según el criterio del mejor esfuerzo. Esto puede generar páginas relativamente inactivas y un índice más voluminoso, ya que este proceso descubre URLs que podrían ir más allá de lo necesario.

En su lugar, puedes optar por realizar una actualización solo del mapa del sitio, que es útil en las siguientes situaciones:

  • Tienes un mapa del sitio bien mantenido y actualizado.
  • Tienes un sitio web grande y necesitas un control más estricto sobre qué páginas web se indexan. Esto genera un índice más ágil y fácil de administrar.
  • Debes actualizar las páginas indexadas a diario. Esto genera un índice más reciente.

En la siguiente tabla, se comparan los diferentes métodos que actualizan el índice del almacén de datos:

Método de actualización Precisión Intervención manual Frecuencia Discovery
Actualización basada en el mapa del sitio Exacto. Solo indexa las URLs de los mapas del sitio. No es necesario después de enviar el mapa del sitio o el índice de mapa del sitio. Diario No deben exceder los especificados en el mapa del sitio.
Actualización manual (también conocida como rastreo nuevo) Exacto. Solo indexa las URLs especificadas en la solicitud de rastreo nuevo. Obligatorio A pedido No.
Actualización automática No es exacto. El almacén de datos se actualiza según el criterio del mejor esfuerzo. No es obligatorio De forma aleatoria y según el criterio del mejor esfuerzo Sí. Descubre URLs más allá de lo que está disponible en la Búsqueda de Google.

Antes de comenzar

Antes de enviar un mapa del sitio o un índice de mapa del sitio al almacén de datos de Vertex AI Search, ten en cuenta lo siguiente:

  • Crea un mapa del sitio en formato XML o un índice de mapas del sitio que haga referencia a todos los mapas del sitio de tu sitio web según el protocolo de mapa del sitio.
  • Ten en cuenta que, para enviar un mapa del sitio o un índice de mapas del sitio al almacén de datos de búsqueda de Vertex AI, no es necesario que lo hagas a la Búsqueda de Google.
  • Todas las URLs de tu mapa del sitio que deseas indexar deben pertenecer a dominios públicos verificados en tu almacén de datos. Para obtener más información, consulta Cómo verificar los dominios de sitios web.
  • El URI del mapa del sitio o el URI del índice del mapa del sitio con los URIs del mapa del sitio anidado deben estar disponibles para el público.

Cómo enviar un mapa del sitio o un índice de mapa del sitio a un almacén de datos

Para activar la indexación y actualización de las páginas web incluidas en tu almacén de datos, sigue estos pasos:

  1. Decide si deseas realizar una actualización solo del mapa del sitio o una actualización combinada con otros métodos.

  2. Para realizar una actualización solo del mapa del sitio, sigue este paso; de lo contrario, avanza al siguiente.

    No puedes usar un almacén de datos existente que tenga indexación y actualización iniciales. Para crear un almacén de datos nuevo, debes desactivar el indexado inicial y la actualización automática con la configuración de AdvancedSiteSearchConfig.

    REST

    Crea un almacén de datos en el que solo esté habilitada la actualización del mapa del sitio. Para ello, se desactivan el índice inicial y la actualización automática.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_ID" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores?dataStoreId=DATA_STORE_ID&createAdvancedSiteSearch=true" \
    -d '{
       "displayName": "DATA_STORE_DISPLAY_NAME",
       "industryVertical": "GENERIC",
       "content_config": "PUBLIC_WEBSITE",
       "searchTier": "ENTERPRISE",
       "advancedSiteSearchConfig": {
          "disableInitialIndex": true,
          "disableAutomaticRefresh": true,
       }
    }'
    

    Reemplaza lo siguiente:

    • PROJECT_ID: El ID del proyecto de Google Cloud.
    • DATA_STORE_ID: El ID del almacén de datos de Vertex AI Search que deseas crear. Este ID solo puede contener letras en minúscula, dígitos, guiones bajos y guiones.
    • DATA_STORE_DISPLAY_NAME: Es el nombre visible del almacén de datos de Vertex AI Search que deseas crear.

  3. Actualiza los patrones de URL de los sitios para incluirlos y excluirlos en tu almacén de datos. Para obtener más información, crea un almacén de datos con el contenido del sitio web.

  4. Verifica los dominios de las páginas web incluidas en tu almacén de datos.

  5. Ya sea que elijas la actualización solo del mapa del sitio o una actualización combinada, envía un URI de mapa del sitio o de índice de mapa del sitio a un almacén de datos con el método sitemaps.create.

    REST

    Envía un mapa del sitio o un índice de mapa del sitio.

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    -H "X-Goog-User-Project: PROJECT_NUMBER" \
    "https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_NUMBER/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps?sitemap.uri=SITEMAP_URI"
    

    Reemplaza lo siguiente:

    • PROJECT_ID: El ID del proyecto de Google Cloud.
    • DATA_STORE_ID: el ID del almacén de datos de Vertex AI Search.
    • SITEMAP_URI: Es el URI público del mapa del sitio individual o del índice del mapa del sitio que deseas enviar. Cuando envías un índice de mapa del sitio, es suficiente con enviar el URI del índice de mapa del sitio. Vertex AI Search indexa automáticamente las URLs incluidas en todos los mapas del sitio anidados dentro del índice de mapas del sitio.

    Después de enviar el mapa del sitio o el índice del mapa del sitio al almacén de datos, Vertex AI Search activa lo siguiente:

    • Una indexación de las URLs aptas en el mapa del sitio, las que se incluyen en tu almacén de datos Este proceso puede tardar algunas horas en completarse. Los mapas del sitio más grandes pueden tardar más tiempo en indexarse.
    • Una actualización diaria de las páginas web con URLs aptas

    Para saber cómo las modificaciones en el mapa del sitio o el índice de mapa del sitio afectan la actualización, consulta Cambios en el mapa del sitio y el índice de mapa del sitio.

  6. Consulta los mapas de sitios en tu almacén de datos.

Cambios en el mapa del sitio y el índice de mapas del sitio

Después del envío inicial, Vertex AI Search detecta modificaciones en tu mapa del sitio o índice de mapas del sitio a diario y las controla de la siguiente manera:

  • Cambios en un mapa del sitio:
    • Cuando agregas URLs: Las URLs que coinciden con el patrón de URLs incluido para el almacén de datos se agregan al índice y se actualizan a diario.
    • Cuando quitas URLs: Si las URLs quitadas están en el índice, se quitan del índice y ya no se actualizan.
    • Cuando actualizas las URLs existentes, por ejemplo, cuando actualizas el campo lastmod de una URL en el mapa del sitio, se actualizan las URLs actualizadas que coincidan con el patrón de URLs incluidas para el almacén de datos. Por lo general, la actualización se realiza en un plazo de 24 horas después de la actualización.
  • Cambios en un índice de mapa del sitio:
    • Cuando agregas un mapa del sitio, las URLs del mapa del sitio nuevo que coinciden con el patrón de URLs incluido para el almacén de datos se agregan al índice y se actualizan a diario.
    • Cuando quitas un mapa del sitio, las URLs que coinciden con el patrón de URLs incluido para el almacén de datos ya no se actualizan. Sin embargo, siguen en el índice. Para quitar el mapa del sitio y sus URLs del índice, consulta Cómo quitar un mapa del sitio y sus URLs del índice.

Enumera los mapas del sitio y los índices de mapas del sitio en un almacén de datos

Para enumerar todos los mapas del sitio y los índices de mapas del sitio en un almacén de datos, usa el método sitemaps.fetch. Si enviaste un índice de mapa del sitio, este método mostrará el índice del mapa del sitio y no los mapas del sitio individuales anidados. Si no hay mapas de sitios en el almacén de datos, esta solicitud muestra un archivo JSON vacío.

REST

Enumera los mapas del sitio y los índices de mapas del sitio en un almacén de datos.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch"

Reemplaza lo siguiente:

  • PROJECT_ID: El ID del proyecto de Google Cloud.
  • DATA_STORE_ID: el ID del almacén de datos de Vertex AI Search.

Cómo verificar si un mapa del sitio o un índice de mapa del sitio está presente en un almacén de datos

Para verificar si un mapa del sitio o un índice de mapas del sitio está presente en un almacén de datos, usa el método sitemaps.fetch. Si el mapa del sitio o el índice del mapa del sitio que estás verificando se envía al almacén de datos, la respuesta contiene el nombre y el URI del mapa del sitio. Si enviaste un índice de mapas del sitio, la búsqueda de mapas del sitio individuales dentro del índice no mostrará los resultados correctos.

REST

Busca un mapa del sitio o un índice de mapa del sitio en un almacén de datos.

curl -X GET \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps:fetch?matcher.uris_matcher.uris=SITEMAP_URI_1&matcher.uris_matcher.uris=SITEMAP_URI_2"

Reemplaza lo siguiente:

  • PROJECT_ID: El ID del proyecto de Google Cloud.
  • DATA_STORE_ID: el ID del almacén de datos de Vertex AI Search.
  • SITEMAP_URI_N: Es el URI público del mapa del sitio o el índice del mapa del sitio que deseas verificar en el almacén de datos.

Cómo borrar un mapa del sitio o un índice de mapa del sitio del almacén de datos

Para borrar un mapa del sitio del almacén de datos, usa el método sitemap.delete. Si borras un mapa del sitio, no se quitarán sus URLs del índice. Para quitar el mapa del sitio y sus URLs del índice, consulta Cómo quitar un mapa del sitio y sus URLs del índice.

REST

Borrar un mapa del sitio o un índice de mapa del sitio

curl -X DELETE \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "X-Goog-User-Project: PROJECT_ID" \
"https://discoveryengine.googleapis.com/v1alpha/projects/PROJECT_ID/locations/global/collections/default_collection/dataStores/DATA_STORE_ID/siteSearchEngine/sitemaps/SITEMAP_ID"

Reemplaza lo siguiente:

Cómo quitar un mapa del sitio o un índice de mapa del sitio y sus URLs del índice del almacén de datos

Para quitar un mapa del sitio o un índice de mapa del sitio y sus URLs del índice, sigue estos pasos:

  1. Para vaciar el mapa del sitio o el índice del mapa del sitio que se envió al almacén de datos, quita todas sus URLs.

    Si enviaste un índice de mapa del sitio al almacén de datos, quita todas las URLs para vaciar los mapas del sitio anidados y, luego, quita el mapa del sitio del índice.

  2. Espera un período de 48 horas para que Vertex AI Search procese estos cambios y quite las URLs del índice del almacén de datos.

  3. Borra el mapa del sitio o el índice de mapa del sitio.