Acerca de El almacén de atributos de Vertex AI

El almacén de atributos de Vertex AI es un servicio administrado de almacenamiento de atributos nativo en la nube que es integral de Vertex AI. Optimiza la administración de atributos de AA y los procesos de entrega en línea, ya que te permite administrar los datos de atributos en una tabla o vista de BigQuery. Luego, puedes entregar atributos en línea directamente desde la fuente de datos de BigQuery.

El almacén de atributos de Vertex AI suministra recursos que te permiten configurar la entrega en línea mediante la especificación de tus fuentes de datos de atributos. Luego, actúa como una capa de metadatos que interactúa con las fuentes de datos de BigQuery y entrega los valores de atributos más recientes directamente de BigQuery para las predicciones en línea con latencias bajas.

En el almacén de atributos de Vertex AI, las tablas o vistas de BigQuery que contienen los datos de atributos forman de forma colectiva el almacén sin conexión. Puedes mantener valores de atributos, incluidos los datos históricos de atributos, en el almacén sin conexión. Debido a que todos los datos de atributos se mantienen en BigQuery, El almacén de atributos de Vertex AI no necesita aprovisionar un almacén sin conexión independiente dentro de Vertex AI. Además, si deseas usar los datos en el almacén sin conexión para entrenar modelos de AA, puedes usar las API y las funciones de BigQuery a fin de exportar o recuperar los datos.

El flujo de trabajo para configurar y, luego, iniciar la entrega en línea mediante el almacén de atributos de Vertex AI se puede resumir de la siguiente manera:

  1. Preparar su fuente de datos en BigQuery

  2. Opcional: Registra tus fuentes de datos mediante la creación de grupos y funciones.

  3. Configurar los recursos de tienda en línea y vista de atributos para conectar las fuentes de datos de atributos con los clústeres de entrega en línea.

  4. Entrega los valores de atributos más recientes en línea desde una vista de atributos.

Modelo y recursos de datos del almacén de atributos de Vertex AI

En esta sección, se explican los modelos de datos y los recursos asociados con los siguientes aspectos del almacén de atributos de Vertex AI:

Preparación de la fuente de datos en BigQuery

Durante la entrega en línea, el almacén de funciones de Vertex AI usa datos de las fuentes de datos de BigQuery. Antes de configurar Feature Registry o los recursos de entrega en línea, debes almacenar los datos de tus funciones en una o más tablas o vistas de BigQuery.

Dentro de una tabla o una vista de BigQuery, cada columna representa una función. Cada fila contiene valores de atributos que corresponden a un ID único. Para obtener más información sobre cómo preparar los datos de atributos en BigQuery, consulta Prepara la fuente de datos.

Por ejemplo, en la figura 1, la tabla de BigQuery incluye las siguientes columnas:

  • f1 y las f2: Columnas de atributos.

  • entity_id: Es una columna de ID que contiene los ID únicos para identificar cada registro de atributos.

  • feature_timestamp: Es una columna de marca de tiempo.

Una vista de atributos que contiene los atributos f1 y f2 en un formato de serie temporal.
Figura 1. Ejemplo de una fuente de datos de BigQuery.

Debido a que preparas la fuente de datos en BigQuery y no en Vertex AI, no es necesario crear ningún recurso de Vertex AI en esta etapa.

Configuración del registro de funciones

Después de preparar tus fuentes de datos en BigQuery, puedes registrarlas, incluidas las columnas de funciones específicas, en el registro de funciones.

El registro de tus funciones es opcional. Puedes entregar funciones en línea incluso si no agregas tus fuentes de datos de BigQuery a Feature Registry. Sin embargo, registrar tus funciones es beneficioso en las siguientes situaciones:

  • Es posible que tus datos contengan varias instancias del mismo ID de entidad y debes prepararlos en un formato de serie temporal con una columna de marca de tiempo. Cuando registras tus atributos, el almacén de atributos de Vertex AI busca la marca de tiempo y entrega solo los valores de atributos más recientes.

  • Deseas registrar columnas de atributos específicas desde una fuente de datos.

  • Deseas agregar columnas específicas de varias fuentes de datos para definir una instancia de vista de atributos.

Recursos del registro de funciones

Para registrar los datos de funciones en el registro de funciones, debes crear los siguientes recursos del almacén de funciones de Vertex AI:

  • Grupo de funciones (FeatureGroup): Un recurso FeatureGroup está asociado con una tabla de origen de BigQuery específica. o la vista. Representa una agrupación lógica de columnas de atributos, que se representan con recursos Feature. Para obtener información sobre cómo crear un grupo de atributos, consulta Crea un grupo de atributos.

  • Atributo (Feature): Un recurso Feature representa una columna específica que contiene valores de atributos de Fuente de datos de atributos asociada con su recurso superior FeatureGroup. Para obtener información sobre cómo crear atributos dentro de un grupo de atributos, consulta Crea un atributo.

Por ejemplo, la figura 2 ilustra un grupo de atributos que incluye las columnas de atributos f1 y f2, provenientes de una tabla de BigQuery asociada con el grupo de atributos. La fuente de datos de BigQuery contiene cuatro columnas de atributos; dos columnas se agregan para formar el grupo de atributos.

Un grupo de funciones que contiene los atributos f1 y f2 en formato de serie temporal.
Figura 2. Ejemplo de un FeatureGroup que contiene dos columnas Feature provenientes de una fuente de datos de BigQuery.

Configuración de la entrega en línea

Para entregar funciones para las predicciones en línea, debes definir y configurar al menos un clúster de entrega en línea y asociarlo con tu fuente de datos de funciones o recursos de Feature Registry. En el almacén de atributos de Vertex AI, el clúster de entrega en línea se llama instancia de tienda en línea. Una instancia de tienda de atributos en línea puede contener varias instancias de vista de atributos, en las que cada una está asociada a una fuente de datos de atributos.

Recursos de entrega en línea

Para configurar la entrega en línea, debes crear los siguientes recursos del almacén de atributos de Vertex AI:

  • Almacén en línea (FeatureOnlineStore): Un recurso FeatureOnlineStore representa una instancia de clúster de entrega en línea y contiene lo siguiente: La configuración de entrega en línea, como la cantidad de nodos de entrega en línea Una instancia de la tienda en línea no especifica la fuente de los datos de las funciones, pero contiene recursos FeatureView que especifican las fuentes de datos de las funciones en BigQuery o Feature Registry. Para obtener información sobre cómo crear una instancia de tienda en línea, consulta Crea una instancia de almacén en línea.

  • Vista de atributos (FeatureView): Un recurso FeatureView es una colección lógica de atributos en una instancia de almacenamiento en línea. Cuando creas una vista de funciones, puedes especificar la ubicación de la fuente de datos de funciones de cualquiera de las siguientes maneras:

    • Asocia uno o más grupos de funciones y además funciones de Feature Registry. Un grupo de funciones especifica la ubicación de la fuente de datos de BigQuery. Un atributo dentro del grupo de atributos apunta a una columna de atributos específica dentro de esa fuente de datos.

    • Como alternativa, asocia una tabla o vista de origen de BigQuery.

    Para obtener información sobre cómo crear instancias de vistas de atributos en un almacén en línea, consulta Crea una vista de atributos.

Por ejemplo, la figura 3 ilustra una vista de atributos que consta de columnas de atributos f2 y f4, que se originan de dos grupos de atributos separados asociados a una tabla de BigQuery.

Una vista de atributos que contiene los atributos f2 y f4 provenientes de dos grupos de atributos.
Figura 3. Ejemplo de un FeatureView que contiene atributos de dos grupos de atributos separados.

Entrega en línea

Vertex AI Feature Store proporciona los siguientes tipos de entrega en línea para predicciones en línea en tiempo real:

  • La entrega en línea de Bigtable es útil para entregar grandes volúmenes de datos (terabytes de datos). Es similar a la entrega en línea en Vertex AI Feature Store (heredado) y proporciona un almacenamiento en caché mejorado para mitigar la generación de hotspots.

  • La entrega en línea optimizada (en vista previa) te permite entregar funciones en línea con latencias muy bajas. Ten en cuenta que, aunque las latencias de entrega en línea dependen de la carga de trabajo, la entrega en línea optimizada puede proporcionar latencias más bajas que la entrega en línea de Bigtable y se recomienda para la mayoría de las situaciones. Sin embargo, si necesitas entregar grandes volúmenes de datos que se actualizan con frecuencia, usa la entrega en línea de Bigtable.

    Para usar la entrega optimizada en línea, debes configurar un extremo público o un extremo de Private Service Connect dedicado.

Para obtener información sobre cómo configurar la entrega en línea en Vertex AI Feature Store después de configurar las funciones, consulta Tipos de entrega en línea.

Entrega sin conexión para predicciones por lotes o entrenamiento de modelos

Debido a que no necesitas copiar o importar los datos de atributos de BigQuery a un almacén sin conexión independiente en Vertex AI, puedes usar las funciones de administración de datos y exportación de BigQuery para hacer las siguientes acciones:

Para obtener más información sobre el aprendizaje automático con BigQuery, consulta Introducción a BigQuery ML.

Términos del almacén de atributos de Vertex AI

Ingeniería de atributos
  • La ingeniería de atributos es el proceso de transformar datos de aprendizaje automático (AA) sin procesar en atributos que se pueden usar para entrenar modelos de AA o hacer predicciones.

Atributo
  • En el aprendizaje automático (AA), un atributo es una característica o un atributo de una instancia o entidad que se usa como entrada para entrenar un modelo de AA o hacer predicciones.

Valor del atributo
  • Un valor de atributo corresponde al valor real y medible de un atributo (atributo) de una instancia o entidad. Una colección de valores de atributos para la entidad única representa el registro de atributos correspondiente a la entidad.

marca de tiempo de la función
  • Una marca de tiempo de atributo indica cuándo se generó el conjunto de valores de atributo en un registro de atributo específico para una entidad.

entrada de atributos
  • Una entrada de funciones es una agregación de todos los valores de funciones que describen las funciones de una entidad única en un momento específico.

Términos relacionados con Feature Registry

registro de funciones
  • Un registro de atributos es una interfaz central para registrar fuentes de datos de atributos que deseas entregar para predicciones en línea.

grupo de atributos
  • Un grupo de atributos es un recurso de registro de atributos que corresponde a una tabla de origen o a una vista de BigQuery que contiene datos de atributos. Una vista de atributos puede contener atributos y se puede considerar una agrupación lógica de columnas de atributos en la fuente de datos.

entrega de atributos
  • La entrega de atributos es el proceso de exportar o recuperar valores de atributos para el entrenamiento o la inferencia. En Vertex AI hay dos tipos de entrega de atributos: entrega en línea y entrega sin conexión. La entrega en línea recupera los valores de atributo más recientes de un subconjunto de la fuente de datos de atributos para las predicciones en línea. La entrega sin conexión o por lotes exporta grandes volúmenes de datos de atributos para el procesamiento sin conexión, como el entrenamiento de modelos de AA.

Almacén sin conexión
  • El almacén sin conexión es una instalación de almacenamiento que almacena datos históricos y recientes de atributos, que se suelen usar para entrenar modelos de AA. Un almacén sin conexión también contiene los valores de atributo más recientes, que puedes entregar para las predicciones en línea.

almacén en línea
  • En la administración de atributos, una tienda en línea es una instalación de almacenamiento para que se entreguen los valores de atributos más recientes para las predicciones en línea.

Vista de funciones
  • Una vista de atributos es una colección lógica de atributos materializados de una fuente de datos de BigQuery a una instancia de tienda en línea. Una vista de atributos almacena y actualiza de forma periódica los datos de los atributos del cliente, que se actualizan de manera periódica desde la fuente de BigQuery. Una vista de atributos se asocia con el almacenamiento de datos de atributos directamente o mediante asociaciones a recursos de registro de atributos.

Restricciones de ubicación

Todos los recursos del almacén de atributos de Vertex AI deben estar ubicados en la misma región o en la misma ubicación multirregional que tu fuente de datos de BigQuery. Por ejemplo, si la fuente de datos de funciones se encuentra en us-central1, debes crear la instancia FeatureOnlineStore solo en us-central1 o en la ubicación multirregional US.

Metadatos de atributos

El almacén de atributos de Vertex AI está integrado en Dataplex para proporcionar capacidades de administración de atributos, incluidos los metadatos de los atributos. Las instancias de tiendas en línea, las vistas de funciones y los grupos de atributos se registran de forma automática como recursos de datos en Data Catalog, una función de Dataplex que cataloga metadatos de estos recursos. Luego, puedes usar la capacidad de búsqueda de metadatos de Dataplex para buscar, ver y administrar los metadatos de estos recursos. Para obtener más información sobre la búsqueda de recursos de Vertex AI Feature Store en Dataplex, consulta Busca metadatos de recursos en Data Catalog.

Etiquetas de atributos

Puedes agregar etiquetas a los recursos durante o después de la creación del recurso. Para obtener más información sobre cómo agregar etiquetas a los recursos existentes de Vertex AI Feature Store, consulta Actualizar etiquetas.

Metadatos de la versión del recurso

El almacén de atributos de Vertex AI solo admite la versión 0 para las funciones.

Administración de incorporaciones y recuperación de vectores

El almacén de atributos de Vertex AI admite la administración de incorporaciones. Puedes almacenar incorporaciones en BigQuery como arreglos double normales. Con las capacidades de administración de incorporaciones del almacén de atributos de Vertex AI puedes hacer búsquedas de similitud de vectores para recuperar entidades que estén cerca de los vecinos más cercanos a una entidad específica o un valor de incorporación.

Para usar la administración de incorporaciones en el almacén de atributos de Vertex AI, debes hacer lo siguiente:

Para obtener información sobre cómo hacer una búsqueda de similitud vectorial en el almacén de atributos de Vertex AI, consulta Realiza una búsqueda de vectores para entidades.

Retención de datos

El almacén de atributos de Vertex AI conserva los valores de atributos más recientes de un ID único según la marca de tiempo asociada con los valores de los atributos en la fuente de datos. No hay límite de retención de datos en la tienda en línea.

Debido a que BigQuery aprovisiona el almacén sin conexión, los límites de retención de datos o las cuotas de BigQuery pueden aplicarse a la fuente de datos de los atributos, incluidos los valores de los atributos históricos. Obtén más información sobre las cuotas y los límites en BigQuery.

Cuotas y límites

El almacén de atributos de Vertex AI aplica cuotas y límites a fin de ayudarte a administrar los recursos mediante la configuración de tus propios límites de uso y para proteger a la comunidad de usuarios de Google Cloud, dado que evita los aumentos repentinos en el uso. Para usar de forma eficiente los recursos del almacén de atributos de Vertex AI sin alcanzar estas restricciones, revisa las cuotas y límites del almacén de atributos de Vertex AI.

Precios

Para obtener información sobre los precios de uso de los recursos del almacén de atributos de Vertex AI, consulta Precios del almacén de atributos de Vertex AI.

Instructivos para uso de notebooks

Entrega y recuperación de atributos en línea de datos de BigQuery con el almacén de atributos de Vertex AI

Entrega y recuperación de atributos en línea de datos de BigQuery con el almacén de atributos de Vertex AI

En este notebook, aprenderás a usar el almacén de atributos de Vertex AI para entregar y recuperar valores de atributos en línea en BigQuery.

Ejecutar in Colab | Ver on GitHub

Entrega de atributos en línea y datos de BigQuery de recuperación de vectores con el almacén de atributos de Vertex AI (vista previa)

Entrega de atributos en línea y datos de BigQuery de recuperación de vectores con el almacén de atributos de Vertex AI

En este notebook, aprenderás a usar Vertex AI Feature Store para la entrega en línea y la recuperación de vectores de valores de atributos en BigQuery.

Ejecutar in Colab | Ver on GitHub

Entrega y recuperación en línea de atributos de datos de BigQuery con la entrega optimizada de Vertex AI Feature Store (vista previa)

Entrega y recuperación en línea de atributos de datos de BigQuery con la entrega optimizada de Vertex AI Feature Store

En este notebook, aprenderás a usar la entrega optimizada en línea en Vertex AI Feature Store para entregar y recuperar valores de atributos de BigQuery.

Ejecutar in Colab | Ver on GitHub

¿Qué sigue?