Usa datos estructurados para la indexación avanzada de sitios web

Si la indexación avanzada de sitios web está habilitada en tu almacén de datos, puedes usar los siguientes tipos de datos estructurados para enriquecer tu indexación:

En esta página, se presentan ambos tipos de datos estructurados para tus páginas web y se describe cómo agregar atributos estructurados personalizados al esquema de tu almacén de datos.

Acerca de las fechas de páginas predefinidas inferidas por Google

Cuando rastrea las páginas web del almacén de datos de tu sitio web, Google infiere con las propiedades que se aplican a tu contenido. Vertex AI Search agrega estas propiedades de datos de página inferidos a tu esquema. Estos datos inferidos incluyen las siguientes propiedades de fecha predefinidas, que también se denominan fechas de la línea de crédito:

  • datePublished: La fecha y hora en la que se publicó la página por primera vez
  • dateModified: Es la fecha y hora de la última modificación de la página.

Estas propiedades se indexan automáticamente. Puedes usar directamente estas propiedades de fecha para enriquecer tu búsqueda sin agregarlas a tu esquema. Para agregar fechas de firma a tu sitio web, consulta Influye en las fechas de firma de tus artículos en la Búsqueda de Google.

Para comprender cómo incluir estas propiedades de fecha predefinidas en tu búsqueda en expresiones de filtros y especificaciones de boosting, consulta Ejemplo de un caso de uso con una fecha de página inferida por Google.

Información acerca de los campos de fecha y hora personalizados en una página web

Puedes agregar campos de fecha y hora personalizados a tus páginas web. Estas etiquetas se pueden usar con el indexado avanzado cuando agregas atributos de datos estructurados personalizados al esquema del almacén de datos.
Este es un ejemplo que muestra dónde agregar una metaetiqueta de fecha y hora personalizada llamada lastModified en tu página web.

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Your web page title</title>

    <!-- Vertex AI Search can use this date. -->
    <meta name="lastModified" content="2022-07-01">
</head>
<body>
    </body>
</html>

Para comprender cómo incluir esas etiquetas de fecha y hora personalizadas en tu búsqueda en expresiones de filtros y especificaciones de boosting, consulta Ejemplo de un caso de uso con un atributo de fecha y hora personalizado.

Acerca de los atributos de datos estructurados personalizados

Puedes agregar atributos de datos estructurados como etiquetas meta y mapas de páginas a tus páginas web y usarlos para enriquecer tu indexación. Para usar atributos estructurados personalizados para la indexación, debes actualizar tu esquema.

Ejemplo de caso de uso para las etiquetas meta

Supongamos que tienes una gran cantidad de páginas web que son relevantes para varios departamentos de tu organización. Puedes usar etiquetas meta para etiquetar las páginas relevantes para cada departamento. Luego, puedes usar las etiquetas indexadas como filtros en tus consultas. Esto te permite restringir los resultados de la búsqueda a páginas web que contengan una etiqueta que coincida con cualquiera de los departamentos especificados.

Este proceso se puede resumir de la siguiente manera:

  1. Agrega las siguientes etiquetas meta a un subconjunto de tus páginas web:
    • Relevante para los departamentos de ingeniería y TI: <meta name="department" content="eng, infotech">
    • Relevante para los departamentos de finanzas y RR.HH.: <meta name="department" content="finance, human resources">
  2. Vuelve a rastrear las páginas actualizadas.
  3. Agrega department al esquema del almacén de datos como un array indexable como se describe. en la sección Agrega atributos de datos estructurados personalizados al esquema del almacén de datos.

Después de actualizar el esquema, el almacén de datos se vuelve a indexar automáticamente. Una vez que se complete el reindexado, puedes usar el filtro department en una expresión de filtro para reordenar o filtrar los resultados de la búsqueda. Por ejemplo, cuando los usuarios del Departamento de Finanzas emiten consultas, los resultados de la búsqueda pueden ser más relevantes para ellos con la department filter establecido en finance

Ejemplo de etiquetas meta en una página web

Este es un ejemplo de las etiquetas meta que puedes agregar a tu página web. Estas etiquetas se pueden usar con el indexado avanzado cuando agregas atributos de datos estructurados personalizados al esquema del almacén de datos.

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Your web page title</title>

    <!-- Robots instructions for crawlers and for Vertex AI Search. -->
    <meta name="robots" content="index,follow">

    <!-- Vertex AI Search can use custom datetime fields to filter, boost, and order. -->
    <meta name="lastModified" content="2024-09-06">

    <!-- Vertex AI Search can filter by category or tags. -->
    <meta name="category" content="archived">
    <meta name="tags" content="legacy,interesting,faq">

    <!-- Vertex AI Search can index these common HTML tags. -->
    <meta name="description" content="A description of your web page's content.">
    <meta name="author" content="Your name or organization">
    <meta name="keywords" content="relevant,keywords,separated,by,commas">
    <link rel="canonical" href="https://www.yourwebsite.com/this-page">
    <meta property="og:title" content="Your Webpage Title">
    <meta property="og:description" content="A description of your webpage's content.">
    <meta property="og:image" content="https://www.yourwebsite.com/image.jpg">
    <meta property="og:url" content="https://www.yourwebsite.com/this-page">
    <meta property="og:type" content="website">
    <meta name="twitter:card" content="summary_large_image">
    <meta name="twitter:title" content="Your customized Webpage Title">
    <meta name="twitter:description" content="A description of your webpage's content.">
    <meta name="twitter:image" content="https://www.yourwebsite.com/image.jpg">
</head>
<body>
...
</body>
</html>

Ejemplo de caso de uso de PageMaps

Supongamos que tienes varias páginas web que contienen recetas de comida. Puedes agregar PageMap con el contenido HTML de cada página Luego, puedes usar los nombres de atributos de PageMap indexados como filtros en tus consultas. Por ejemplo, si pretendes aumentar o bien ocultar páginas web según la clasificación de las recetas, puedes seguir este proceso:

  1. Agrega datos de PageMap similares a los siguientes a tus páginas web:

    <html>
    <head>
    ...
    <!--
    <PageMap>
        <DataObject type="document">
            <Attribute name="title">Baked potatoes</Attribute>
            <Attribute name="author">Dana A.</Attribute>
            <Attribute name="description">Homestyle baked potatoes in oven. This
            recipe uses Russet potatoes.</Attribute>
            <Attribute name="rating">4.9</Attribute>
            <Attribute name="lastUpdate">2015-01-01</Attribute>
        </DataObject>
    </PageMap>
    -->
    </head>
    ...
    </html>
    
  2. Vuelve a rastrear las páginas actualizadas.

  3. Agrega rating al esquema del almacén de datos como un array indexable como se describe. en la Agrega atributos de datos estructurados personalizados al esquema del almacén de datos sección.

Después de actualizar el esquema, tu almacén de datos se vuelve a indexar automáticamente. Una vez que se complete el reindexado, puedes usar el atributo rating en una expresión de filtro para reordenar o filtrar los resultados de la búsqueda. Por ejemplo, cuando los usuarios buscan recetas, aumenta los resultados de la búsqueda que tienen la mejor calificación usando rating como atributo numérico personalizado.

Caso de uso de ejemplo con datos de schema.org

Supongamos que tienes un sitio web de opiniones y sus páginas web están anotadas con datos de schema.org en formato JSON-LD dentro de la etiqueta script de HTML. Luego, puedes usar las anotaciones indexadas como filtros en tus consultas. Por ejemplo, si quieres para ocultar o mejorar las páginas web según las calificaciones agregadas, puedes seguir este proceso:

  1. Agregue las anotaciones de Schema.org para el contenido de opiniones similares a lo siguiente a tus páginas web. Para ver otros tipos de plantillas de schema.org disponibles, consulta Esquemas:

    <script type="application/ld+json">
    {
      "@context": "https://schema.org",
      "@type": "Review",
      "aggregateRating": {
        "@type": "Average Rating",
        "ratingValue": 3.5,
        "reviewCount": 11
      },
      "description": "Published in 1843, this is the perfect depiction of the Victorian London. A Christmas Carol is the story of Ebenezer Scrooge's transformation.",
      "name": "A Christmas Carol",
      "image": "christmas-carol-first-ed.jpg",
      "review": [
        {
          "@type": "Review",
          "author": "Alex T.",
          "datePublished": "2000-01-01",
          "reviewBody": "Read this in middle school and have loved this ever since.",
          "name": "Worth all the adaptations",
          "reviewRating": {
            "@type": "Rating",
            "bestRating": 5,
            "ratingValue": 5,
            "worstRating": 1
          }
        }
      ]
    }
    </script>
    
  2. Vuelve a rastrear las páginas actualizadas.

  3. Agrega la ruta de acceso a ratingValue al esquema de tu almacén de datos. Usa un identificador como el nombre del campo en el esquema del almacén de datos, como rating_value, como se describe en la sección Agrega atributos de datos estructurados personalizados al esquema del almacén de datos.

Después de actualizar el esquema, el almacén de datos se vuelve a indexar automáticamente. Después de que se complete la reindexación, puedes usar el atributo rating_value en un expresión de filtro para reordenar o filtrar la búsqueda resultados. Por ejemplo, cuando los usuarios buscan libros, aumenta la búsqueda. resultados con la mejor calificación usando rating_value como número numérico personalizado .

Antes de comenzar

Antes de actualizar el esquema del almacén de datos, haz lo siguiente:

  • Activa la indexación avanzada de sitios web para el almacén de datos. Para obtener más información, consulta Activa la indexación avanzada de sitios web.
  • Comprende cómo funcionan los datos estructurados.
  • Aprende a usar PageMaps. Revisa la lista de DataObjects reconocidos que se pueden agregar a los datos de PageMap.
  • Aprende a usar etiquetas meta. Asegúrate de no utilizar Cualquier metaetiqueta excluida o no admitida
  • Asegúrate de que el atributo que se debe indexar no tenga ninguno de los siguientes valores:
    • datePublished
    • dateModified
    • siteSearch
  • Ten en cuenta que después de agregar datos estructurados a tus páginas web, debes volver a rastrear las páginas. Esto puede tardar varias horas.
  • Ten en cuenta que, después de agregar atributos de datos estructurados al esquema del almacén de datos, las páginas web de tu almacén de datos se vuelven a indexar automáticamente. La reinstalación del índice es una operación de larga duración que puede tardar varias horas.

Agrega atributos de datos estructurados personalizados al esquema del almacén de datos

Para agregar atributos de datos estructurados personalizados al esquema del almacén de datos, haz lo siguiente:

  1. Agrega etiquetas meta, datos de PageMap y datos de schema.org a todas las páginas de tu sitio web que quieras enriquecer con la indexación de datos estructurados:

    • En el caso de las etiquetas meta:
      • Cada etiqueta meta debe tener su atributo name establecido en el campo que quieres indexar y su atributo content en una cadena de uno o más valores separados por comas.
      • La Búsqueda de Vertex AI admite etiquetas meta con nombres que coinciden con el patrón [a-zA-Z0-9][a-zA-Z0-9-_]*. Asegúrate de no usar ninguna metaetiqueta no admitida ni excluida.
    • Para los datos de PageMap:
      • Los datos de PageMap deben constar de DataObjects reconocidos que contienen atributos los nombres que quieres indexar. Los nombres de los atributos dentro de DataObjects deben establecerse en el campo que deseas indexar.
    • Para datos de schema.org:
      • Las anotaciones deben estar en formato JSON-LD, microdatos o RDFa válido. Para obtener más información, consulta los Formatos admitidos.
  2. Volver a rastrear las páginas web actualizadas

  3. Consulta la definición del esquema de tu almacén de datos a través de la API de REST.

  4. Actualiza el esquema del almacén de datos a través de la API de REST. Para obtener más información, consulta Acerca de cómo proporcionar tu propio esquema como un objeto JSON.

    1. Agrega objetos para cada atributo personalizado que quieras que se pueda buscar. recuperables o indexables.
    2. Agrega el atributo personalizado y establece su type en array.
    3. Agrega el tipo de datos del valor del atributo personalizado.
    4. Especifica la fuente del atributo personalizado en la que se puede encontrar en la siteSearchStructuredDataSources.
    5. Para los datos de schema.org: Especifica la ruta del atributo en schema.org anotación que comience con la string _root en siteSearchSchemaOrgPaths .

    El siguiente es un ejemplo de una actualización del esquema para un sitio web:

    {
      "type": "object",
      "properties": [{
        "CUSTOM_ATTRIBUTE": {
          "type": "array",
          "items": {
            "type": "DATA_TYPE",
            "searchable": true,
            "retrievable": true,
            "indexable": true,
            "siteSearchStructuredDataSources": ["STRUCTURED_DATA_SOURCE_1", "STRUCTURED_DATA_SOURCE_2"]
          }
        }
      }
      {
        "IDENTIFIER_FOR_SCHEMA_ORG_FIELD": {
          "type": "array",
          "items": {
            "type": "DATA_TYPE_SCHEMA_ORG_FIELD",
            "searchable": true,
            "retrievable": true,
            "indexable": true,
            "siteSearchSchemaOrgPaths": ["_root.PATH_TO_THE_SCHEMA_ORG_FIELD"]
          }
        }
      }],
      "$schema": "https://json-schema.org/draft/2020-12/schema"
    }

    Reemplaza lo siguiente:

    • CUSTOM_ATTRIBUTE: Es el valor del atributo name. Por ejemplo:
      • Para una etiqueta meta definida como <meta name="department" content="eng, infotech">, usar department
      • Para un atributo PageMap definido como <Attribute name="rating">4.9</Attribute>, usa rating
    • DATA_TYPE: Es el tipo de datos del atributo name. Debe ser una cadena, un número o una fecha y hora. Por ejemplo:

      • Para una etiqueta meta definida como <meta name="department" content="eng, infotech">, usa string.
      • Para un atributo PageMap definido como <Attribute name="rating">4.9</Attribute>, usa number
      • Para un atributo PageMap definido como <Attribute name="lastPublished">2015-01-01</Attribute>, usa datetime.

      Para obtener más información, consulta FieldType.

    • STRUCTURED_DATA_SOURCE_N: Es un array que consta de una o ambas de las siguientes fuentes de datos estructurados en las que se puede encontrar el atributo CUSTOM_ATTRIBUTE:

      • Si el atributo personalizado se puede encontrar como una etiqueta meta, especifica METATAG.
      • Si el atributo personalizado se puede encontrar como un atributo de PageMap, especifica PAGEMAP.
      • Si el atributo personalizado se puede encontrar como datos de schema.org, especifica SCHEMA_ORG.
      • Si el campo siteSearchStructuredDataSources no se muestra o se deja vacío, el los valores de las tres fuentes de datos se combinan en un array.
    • IDENTIFIER_FOR_SCHEMA_ORG_FIELD: Es un identificador personalizado para indicar el campo de schema.org. No es necesario que sea igual al nombre del campo en la anotación de schema.org de tu página web. Por ejemplo: si la ruta del campo es _root.nutrition.calories, el identificador puede ser calorific_value o nutrition_value

    • DATA_TYPE_SCHEMA_ORG_FIELD: Es el tipo de datos del Schema.org. Debe ser una cadena, un número o una fecha y hora. Por ejemplo:

      • Para un campo de schema.org definido como "calories":"240 calories", usa string.
      • Para un campo de schema.org definido como "calories": 240, usa number.
      • En el campo de Schema.org definido como “foundingDate”: “1991-05-01”, usar datetime

      Para obtener más información, consulta FieldType.

    • PATH_TO_THE_SCHEMA_ORG_FIELD: Es la ruta de acceso a un solo en el campo de Schema.org al que se debe acceder. Se especifica con separadores de puntos después de cada nivel anidado. Debes especificar completa la ruta necesaria para acceder al campo obligatorio. Por ejemplo, si un ratingValue está anidado en el campo aggregateRating, puedes especifica la ruta de acceso como _root.aggregateRating.ratingValue.

Después de actualizar el esquema del sitio web, este se vuelve a indexar automáticamente. Esta es una operación de larga duración que puede tardar varias horas.

¿Qué sigue?

Usa los metadatos indexados para lo siguiente: