Prepara la fuente de datos

Antes de comenzar a publicar atributos en línea con Vertex AI Feature Store, debes configurar tu fuente de datos de atributos en BigQuery de la siguiente manera:

  1. Crea una tabla o vista de BigQuery con tus datos de atributos. Para cargar datos de componentes en una tabla o vista de BigQuery, puedes crear un conjunto de datos de BigQuery con los datos, crear una tabla de BigQuery y, luego, cargar los datos de componentes del conjunto de datos en la tabla.

  2. Después de cargar los datos de atributos en la tabla o la vista de BigQuery, debes hacer que esta fuente de datos esté disponible para Vertex AI Feature Store para la entrega en línea. Existen dos maneras en las que puedes conectar la fuente de datos a recursos de entrega en línea, como tiendas en línea e instancias de vistas de atributos:

    • Registra la fuente de datos mediante la creación de grupos de funciones y atributos: Puedes asociar grupos de funciones y atributos con las instancias de vistas de atributos en tu almacén en línea. En este caso, puedes darles formato a tus datos como una serie temporal si incluyes la columna feature_timestamp. Vertex AI Feature Store solo entrega los valores no nulos más recientes para cada ID de entidad único, según la marca de tiempo del atributo. Para obtener información sobre cómo crear grupos de atributos, consulta Crea un grupo de atributos. Para obtener información sobre cómo crear atributos dentro de un grupo de atributos, consulta Crea un atributo.

    • Entregar atributos directamente desde la fuente de datos sin crear grupos de atributos y atributos: Puedes especificar el URI de la fuente de datos en la vista de atributos. Ten en cuenta que, en este caso, no puedes dar formato a tus datos como una serie temporal ni incluir datos históricos en la fuente de BigQuery. Cada fila debe contener los valores de atributos más recientes correspondientes a un ID único. No se admiten varias ocurrencias del mismo ID de entidad en diferentes filas.

Dado que Vertex AI Feature Store te permite mantener los datos de atributos en BigQuery y entrega atributos desde la fuente de datos de BigQuery, no es necesario importar ni copiar los atributos a un almacén sin conexión.

Lineamientos para la preparación de fuentes de datos

Sigue estos lineamientos para comprender el esquema y las restricciones mientras preparas la fuente de datos en BigQuery:

  1. La fuente de datos debe contener las siguientes columnas:

    • Al menos una columna de ID de entidad con valores string. El tamaño de cada valor de esta columna debe ser inferior a 4 KB.

    • Si registras la fuente de datos con grupos de atributos y funciones, incluye la columna feature_timestamp y da formato a los datos como una serie temporal. La columna feature_timestamp contiene valores del tipo timestamp. Durante la entrega en línea, Vertex AI Feature Store entrega los valores más recientes de un atributo que no sean nulos según esta marca de tiempo.

    Si asocias directamente una fuente de datos de BigQuery con una vista de atributos, la columna feature_timestamp no es obligatoria. En esta situación, debes solo incluir los valores de atributos más recientes en la fuente de datos y Vertex AI Feature Store no busca la marca de tiempo.

    • Si deseas usar la administración de incorporaciones en una tienda en línea creada para la entrega en línea optimizada, la fuente de datos debe contener las siguientes columnas:

      • Una columna embedding que contiene matrices del tipo float.

      • Opcional: Una o más columnas de filtrado del tipo string o matriz string.

      • Opcional: Una columna de agrupamiento del tipo int.

  2. Cada fila de la fuente de datos es un registro completo de los valores de atributos asociados con un ID de entidad. Si falta un valor de atributo en una de las columnas, se considera como valor nulo. Según cómo definas la vista de atributos, hay dos formas en que Vertex AI Feature Store selecciona los valores de atributos que entrega:

    • Si la vista de atributos se define en función de grupos de atributos y atributos, Vertex AI Feature Store entrega el valor de atributo más reciente que no sea nulo mediante la marca de tiempo del atributo. Por ejemplo, si el valor de un atributo particular correspondiente a la marca de tiempo más reciente es nulo, Vertex AI Feature Store entrega el valor más reciente que no sea nulo de los valores históricos del atributo.

    • Si la vista de atributos se define especificando directamente una fuente de datos de BigQuery, cada fila debe contener un valor único para una columna de ID de entidad. En este caso, Vertex AI Feature Store entrega todos los valores de atributos de la fuente de datos asociada.

  3. Cada columna de la tabla o de la vista de BigQuery representa un atributo. Proporciona los valores de cada atributo en una columna independiente. Si asocias la fuente de datos con un grupo de atributos y sus características, se asocia cada columna con un atributo independiente.

  4. Los tipos de datos admitidos para valores de atributos incluyen bool, int, float, string, timestamp, matrices de estos tipos de datos y bytes. Ten en cuenta que, durante la sincronización de datos, los valores de componentes de tipo timestamp se convierten a int64.

  5. La fuente de datos debe estar ubicada en la misma región que la instancia de la tienda en línea o en una multirregión que incluya o que se superponga con la región de la tienda en línea. Por ejemplo, si la tienda en línea está en us-central, la fuente de BigQuery puede estar ubicada en us-central o en US.

  6. Sincroniza los datos en una vista de atributos antes de la entrega en línea para asegurarte de entregar solo los valores de atributos más recientes.

¿Qué sigue?