Acerca de Vertex AI Feature Store

El almacén de atributos de Vertex AI es un servicio administrado de almacenamiento de atributos nativo en la nube que es integral de Vertex AI. Optimiza la administración de atributos del AA y los procesos de entrega en línea, ya que te permite administrar los datos de tus atributos en una tabla o vista de BigQuery. Luego, puedes entregar atributos en línea directamente desde la fuente de datos de BigQuery.

El almacén de atributos de Vertex AI suministra recursos que te permiten configurar la entrega en línea mediante la especificación de tus fuentes de datos de atributos. Luego, actúa como una capa de metadatos que interactúa con las fuentes de datos de BigQuery y entrega los valores de atributos más recientes directamente desde BigQuery para las predicciones en línea con latencias bajas.

En el almacén de atributos de Vertex AI, las tablas o vistas de BigQuery que contienen los datos de atributos forman de forma colectiva el almacén sin conexión. Puedes mantener los valores de los atributos, incluidos los datos históricos de atributos, en el almacén sin conexión. Debido a que todos los datos de atributos se mantienen en BigQuery, El almacén de atributos de Vertex AI no necesita aprovisionar un almacén sin conexión independiente dentro de Vertex AI. Además, si deseas usar los datos en el almacén sin conexión para entrenar modelos de AA, puedes usar las APIs y las funciones de BigQuery para exportar o recuperar los datos.

El flujo de trabajo para configurar y, luego, iniciar la entrega en línea mediante el almacén de atributos de Vertex AI se puede resumir de la siguiente manera:

  1. Preparar tu fuente de datos en BigQuery.

  2. Opcional: Registra tus fuentes de datos mediante la creación de grupos de funciones y atributos.

  3. Configurar recursos del almacén en línea y la vista de atributos para conectar las fuentes de datos de los atributos con los clústeres de entrega en línea

  4. Entregar los valores de atributos más recientes en línea desde una vista de atributos

Modelo y recursos de datos del almacén de atributos de Vertex AI

En esta sección, se explican los modelos de datos y los recursos asociados con los siguientes aspectos del almacén de atributos de Vertex AI:

Preparación de la fuente de datos en BigQuery

Durante la entrega en línea, el almacén de funciones de Vertex AI usa datos de las fuentes de datos de BigQuery. Antes de configurar Feature Registry o los recursos de entrega en línea, debes almacenar los datos de tus funciones en una o más tablas o vistas de BigQuery.

Within a BigQuery table or view, each column represents a feature. Each row contains feature values corresponding to a unique ID. For more information about how to prepare the feature data in BigQuery, see Prepare data source.

Por ejemplo, en la figura 1, la tabla de BigQuery incluye las siguientes columnas:

  • f1 y las f2: Columnas de atributos.

  • entity_id: An ID column containing the unique IDs to identify each feature record.

  • feature_timestamp: Es una columna de marca de tiempo.

Una vista de atributos que contiene los atributos f1 y f2 en un formato de serie temporal.
Figure 1. Example of a BigQuery data source.

Debido a que preparas la fuente de datos en BigQuery y no en Vertex AI, no es necesario crear ningún recurso de Vertex AI en esta etapa.

Configuración del registro de funciones

Después de preparar tus fuentes de datos en BigQuery, puedes registrarlas, incluidas las columnas de funciones específicas, en el registro de funciones.

El registro de tus funciones es opcional. Puedes entregar funciones en línea incluso si no agregas tus fuentes de datos de BigQuery a Feature Registry. Sin embargo, registrar tus funciones es beneficioso en las siguientes situaciones:

  • Tus datos pueden contener varias instancias del mismo ID de entidad y debes preparar tus datos en un formato de serie temporal con una columna de marca de tiempo. Cuando registras tus atributos, el almacén de atributos de Vertex AI busca la marca de tiempo y entrega solo los valores de atributos más recientes.

  • Deseas registrar columnas de atributos específicas a partir de una fuente de datos.

  • Deseas agregar columnas específicas de varias fuentes de datos para definir una instancia de vista de atributos.

Recursos del registro de funciones

Para registrar los datos de funciones en el registro de funciones, debes crear los siguientes recursos del almacén de funciones de Vertex AI:

  • Grupo de atributos (FeatureGroup): Un recurso FeatureGroup está asociado con una tabla o vista de origen de BigQuery específicas. Representa una agrupación lógica de columnas de atributos, que están representadas por recursos Feature. Para obtener información sobre cómo crear un grupo de atributos, consulta Crea un grupo de atributos.

  • Atributo (Feature): Un Feature representa una columna específica que contiene valores de atributos de fuente de datos de atributos asociada con su recurso superior FeatureGroup. Para obtener información sobre cómo crear atributos dentro de un grupo de atributos, consulta Crea un atributo.

Por ejemplo, en la figura 2 se ilustra un grupo de atributos que incluye las columnas de atributos f1 y f2, que provienen de una tabla de BigQuery asociada con el grupo de atributos. La fuente de datos de BigQuery contiene cuatro columnas de atributos: dos columnas se agregan para formar el grupo de atributos.

Un grupo de atributos que contiene los atributos f1 y f2 en formato de serie temporal.
Figura 2. Ejemplo de un objeto FeatureGroup que contiene dos columnas Feature provenientes de una fuente de datos de BigQuery.

Configuración de la entrega en línea

Para entregar funciones para las predicciones en línea, debes definir y configurar al menos un clúster de entrega en línea y asociarlo con tu fuente de datos de funciones o recursos de Feature Registry. En el almacén de atributos de Vertex AI, el clúster de entrega en línea se llama instancia de tienda en línea. Una instancia de la tienda en línea puede contener varias instancias de vista de atributos, en las que cada vista de atributos está asociada con una fuente de datos de atributos.

Recursos de entrega en línea

Para configurar la entrega en línea, debes crear los siguientes recursos del almacén de atributos de Vertex AI:

  • Almacén en línea (FeatureOnlineStore): Un recurso FeatureOnlineStore representa una instancia de clúster de entrega en línea y contiene la configuración de entrega en línea, como la cantidad de nodos de entrega en línea Una instancia de la tienda en línea no especifica la fuente de los datos de las funciones, pero contiene recursos FeatureView que especifican las fuentes de datos de las funciones en BigQuery o Feature Registry. Para obtener información sobre cómo crear una instancia de tienda en línea, consulta Crea una instancia de almacén en línea.

  • Vista de atributos (FeatureView): Un recurso FeatureView es una colección lógica de atributos en una de la tienda en línea. Cuando creas una vista de funciones, puedes especificar la ubicación de la fuente de datos de funciones de cualquiera de las siguientes maneras:

    • Asocia uno o más grupos de funciones y además funciones de Feature Registry. Un grupo de funciones especifica la ubicación de la fuente de datos de BigQuery. Un atributo dentro del grupo de atributos apunta a una columna de atributos específica dentro de esa fuente de datos.

    • Como alternativa, asocia una tabla o vista de origen de BigQuery.

    For information about how to create feature view instances within an online store, see Create a feature view.

Por ejemplo, en la figura 3, se muestra una vista de atributos compuesta por columnas de atributos f2 y f4, que provienen de dos grupos de atributos independientes asociados con una tabla de BigQuery.

Una vista de atributos que contiene los atributos f2 y f4 procedentes de dos grupos de atributos
Figura 3. Ejemplo de un FeatureView que contiene atributos de dos grupos de atributos separados.

Entrega en línea

Vertex AI Feature Store proporciona los siguientes tipos de entrega en línea para predicciones en línea en tiempo real:

  • Bigtable online serving is useful for serving large data volumes (terabytes of data). It's similar to online serving in Vertex AI Feature Store (Legacy) and provides improved caching to mitigate hotspotting. Bigtable online serving doesn't support embeddings.

  • La entrega en línea optimizada te permite entregar funciones en latencias ultrabajas. Ten en cuenta que, aunque las latencias de entrega en línea dependen de la carga de trabajo, la entrega en línea optimizada puede proporcionar latencias más bajas que la entrega en línea de Bigtable y se recomienda para la mayoría de las situaciones. La entrega en línea optimizada también admite la administración de incorporaciones. Sin embargo, si necesitas entregar grandes volúmenes de datos que se actualizan con frecuencia y no necesitan entregar incorporaciones, usa la entrega en línea de Bigtable.

    Para usar la entrega optimizada en línea, debes configurar un extremo público o un extremo de Private Service Connect dedicado.

Para obtener información sobre cómo configurar la entrega en línea en Vertex AI Feature Store después de configurar las funciones, consulta Tipos de entrega en línea.

Entrega sin conexión para predicciones por lotes o entrenamiento de modelos

Debido a que no necesitas copiar o importar los datos de atributos de BigQuery a un almacén sin conexión independiente en Vertex AI, puedes usar las funciones de administración de datos y exportación de BigQuery para hacer las siguientes acciones:

Para obtener más información sobre el aprendizaje automático con BigQuery, consulta Introducción a BigQuery ML.

Términos del almacén de atributos de Vertex AI

Ingeniería de atributos
  • La ingeniería de atributos es el proceso de transformar datos de aprendizaje automático (AA) sin procesar en atributos que se pueden usar para entrenar modelos de AA o hacer predicciones.

Atributo
  • En el aprendizaje automático (AA), un atributo es una característica o un atributo de una instancia o entidad que se usa como entrada para entrenar un modelo de AA o hacer predicciones.

Valor del atributo
  • El valor de atributo corresponde al valor real y medible de un atributo de una instancia o entidad. Una colección de valores de atributos para la entidad única representa el registro de atributos correspondiente a la entidad.

marca de tiempo del atributo
  • La marca de tiempo de un atributo indica cuándo se generó el conjunto de valores de atributos en un registro de atributos específico de una entidad.

entrada de atributos
  • Una entrada de funciones es una agregación de todos los valores de funciones que describen las funciones de una entidad única en un momento específico.

Términos relacionados con Feature Registry

registro de funciones
  • Un registro de atributos es una interfaz central que sirve para registrar fuentes de datos de atributos que deseas entregar para predicciones en línea.

grupo de funciones
  • Un grupo de atributos es un recurso de registro de atributos que corresponde a una tabla de origen de BigQuery o una vista que contiene datos de atributos. Una vista de atributos puede contener atributos y se puede considerar como una agrupación lógica de columnas de atributos en la fuente de datos.

entrega de atributos
  • La entrega de atributos es el proceso de exportar o recuperar valores de atributos para el entrenamiento o la inferencia. En Vertex AI hay dos tipos de entrega de atributos: entrega en línea y entrega sin conexión. La entrega en línea recupera los valores de atributos más recientes de un subconjunto de la fuente de datos de atributos para realizar predicciones en línea. La entrega sin conexión o por lotes exporta grandes volúmenes de datos de atributos para el procesamiento sin conexión, como el entrenamiento de modelos de AA.

Almacén sin conexión
  • El almacenamiento sin conexión es una instalación de almacenamiento que almacena datos de atributos históricos y recientes, que por lo general se usan para entrenar modelos de AA. Un almacén sin conexión también contiene los valores de atributos más recientes, que puedes entregar para predicciones en línea.

almacén en línea
  • En la administración de atributos, una tienda en línea es una instalación de almacenamiento para los valores de atributos más recientes que se entregarán para las predicciones en línea.

Vista de funciones
  • Una vista de atributos es una colección lógica de atributos materializados de una fuente de datos de BigQuery en una instancia de tienda en línea. Una vista de atributos almacena y actualiza de forma periódica los datos de los atributos del cliente, que se actualizan de manera periódica desde la fuente de BigQuery. Una vista de atributos se asocia con el almacenamiento de datos de atributos ya sea directamente o a través de asociaciones a recursos de registro de atributos.

Restricciones de ubicación

Todos los recursos del almacén de atributos de Vertex AI deben estar ubicados en la misma región o en la misma ubicación multirregional que tu fuente de datos de BigQuery. Por ejemplo, si la fuente de datos de atributos se encuentra en us-central1, debes crear tu instancia FeatureOnlineStore solo en us-central1 o en la ubicación multirregión US.

Metadatos de atributos

El almacén de atributos de Vertex AI está integrado en Dataplex para proporcionar capacidades de administración de atributos, incluidos los metadatos de los atributos. Las instancias de tiendas en línea, las vistas de funciones y los grupos de atributos se registran de forma automática como recursos de datos en Data Catalog, una función de Dataplex que cataloga metadatos de estos recursos. Luego, puedes usar la capacidad de búsqueda de metadatos de Dataplex para buscar, ver y administrar los metadatos de estos recursos. Para obtener más información sobre la búsqueda de recursos de Vertex AI Feature Store en Dataplex, consulta Busca metadatos de recursos en Data Catalog.

Etiquetas de atributos

Puedes agregar etiquetas a los recursos durante o después de la creación del recurso. Para obtener más información sobre cómo agregar etiquetas a los recursos existentes de Vertex AI Feature Store, consulta Actualizar etiquetas.

Metadatos de la versión del recurso

El almacén de atributos de Vertex AI solo admite la versión 0 para las funciones.

Administración de incorporaciones y recuperación de vectores

La entrega en línea optimizada en Vertex AI Feature Store admite la administración de incorporaciones. Puedes almacenar incorporaciones en BigQuery como arrays double normales. Con las capacidades de administración de incorporaciones del almacén de atributos de Vertex AI puedes hacer búsquedas de similitud de vectores para recuperar entidades que estén cerca de los vecinos más cercanos a una entidad específica o un valor de incorporación.

Para usar la administración de incorporaciones en el almacén de atributos de Vertex AI, debes hacer lo siguiente:

Para obtener información sobre cómo hacer una búsqueda de similitud vectorial en el almacén de atributos de Vertex AI, consulta Realiza una búsqueda de vectores para entidades.

Retención de datos

El almacén de atributos de Vertex AI conserva los valores de atributos más recientes de un ID único según la marca de tiempo asociada con los valores de los atributos en la fuente de datos. No hay límite de retención de datos en la tienda en línea.

Because the offline store is provisioned by BigQuery, data retention limits or quotas from BigQuery might apply to the feature data source, including historical feature values. Learn more about quotas and limits in BigQuery.

Cuotas y límites

El almacén de atributos de Vertex AI aplica cuotas y límites a fin de ayudarte a administrar los recursos mediante la configuración de tus propios límites de uso y para proteger a la comunidad de usuarios de Google Cloud, dado que evita los aumentos repentinos en el uso. Para usar de forma eficiente los recursos del almacén de atributos de Vertex AI sin alcanzar estas restricciones, revisa las cuotas y límites del almacén de atributos de Vertex AI.

Precios

Para obtener información sobre los precios de uso de los recursos del almacén de atributos de Vertex AI, consulta Precios del almacén de atributos de Vertex AI.

Instructivos para uso de notebooks

Entrega y recuperación de atributos en línea de datos de BigQuery con el almacén de atributos de Vertex AI

Entrega y recuperación de atributos en línea de datos de BigQuery con el almacén de atributos de Vertex AI

En este notebook, aprenderás a usar el almacén de atributos de Vertex AI para entregar y recuperar valores de atributos en línea en BigQuery.

Ejecutar in Colab | Ver on GitHub

Entrega de atributos en línea y datos de BigQuery de recuperación de vectores con el almacén de atributos de Vertex AI

Entrega de atributos en línea y datos de BigQuery de recuperación de vectores con el almacén de atributos de Vertex AI

En este notebook, aprenderás a usar Vertex AI Feature Store para la entrega en línea y la recuperación de vectores de valores de atributos en BigQuery.

Ejecutar in Colab | Ver on GitHub

Entrega y recuperación en línea de atributos de datos de BigQuery con la entrega optimizada de Vertex AI Feature Store

Entrega y recuperación en línea de atributos de datos de BigQuery con la entrega optimizada de Vertex AI Feature Store

En este notebook, aprenderás a usar la entrega optimizada en línea en Vertex AI Feature Store para entregar y recuperar valores de atributos de BigQuery.

Ejecutar in Colab | Ver on GitHub

¿Qué sigue?