Prepara la fuente de datos

Antes de comenzar a entregar atributos en línea con Vertex AI Feature Store, debes configurar la fuente de datos de atributos en BigQuery de la siguiente manera:

  1. Crea una tabla o vista de BigQuery con tus datos de atributos. Para cargar datos de atributos en una tabla o vista de BigQuery, puedes crear un conjunto de datos de BigQuery con los datos, crear una tabla de BigQuery y, luego, cargar los datos de atributos del conjunto de datos en la tabla.

  2. Después de cargar los datos de los atributos en la tabla o la vista de BigQuery, debes hacer que esta fuente de datos esté disponible para Vertex AI Feature Store para la entrega en línea. Existen dos maneras en las que puedes conectar la fuente de datos a los recursos de entrega en línea, como las tiendas en línea y las instancias de vista de atributos:

    • Registra la fuente de datos mediante la creación de grupos de funciones y atributos: Puedes asociar grupos de funciones y atributos con las instancias de vistas de atributos en tu almacén en línea. En esta situación, puedes dar formato a los datos como una serie temporal si incluyes la columna feature_timestamp. Vertex AI Feature Store entrega solo los últimos valores no nulos para cada ID de entidad único, según la marca de tiempo del atributo. Para obtener información sobre cómo crear grupos de atributos, consulta Crea un grupo de atributos. Para obtener información sobre cómo crear atributos dentro de un grupo de atributos, consulta Crea un atributo.

    • Entregar atributos directamente desde la fuente de datos sin crear grupos de atributos y atributos: Puedes especificar el URI de la fuente de datos en la vista de atributos. Ten en cuenta que, en este caso, no puedes formatear tus datos como una serie temporal ni incluir datos históricos en la fuente de BigQuery. Cada fila debe contener los valores de atributos más recientes correspondientes a un ID único. No se admiten varios casos del mismo ID de entidad en diferentes filas.

Debido a que Vertex AI Feature Store te permite mantener datos de atributos en BigQuery y entregar atributos de la fuente de datos de BigQuery, no es necesario importar o copiar los atributos en un almacén sin conexión.

Lineamientos para la preparación de la fuente de datos

Sigue estos lineamientos para comprender el esquema y las restricciones mientras preparas la fuente de datos en BigQuery:

  1. La fuente de datos debe contener las siguientes columnas:

    • Una columna de ID de entidad con valores string. El tamaño de cada valor en esta columna debe ser inferior a 4 KB.

      • Si registras la fuente de datos mediante la creación de grupos de atributos, el nombre de esta columna debe ser entity_id. No es necesario especificar la columna de ID de la entidad mientras se asocian grupos de atributos durante la creación de la vista de atributos.

      • Si vas a especificar el URI de la fuente de datos para crear la vista de atributos, debes especificar el nombre de esta columna durante la creación de la vista de atributos. En este caso, no es obligatorio nombrar esta columna entity_id.

    • Si registras la fuente de datos mediante grupos de atributos y características, incluye la columna feature_timestamp y formatea los datos como una serie temporal. La columna feature_timestamp contiene valores de tipo timestamp. Durante la entrega en línea, Vertex AI Feature Store entrega los valores más recientes que no sean nulos de un atributo según esta marca de tiempo.

    Si asocias directamente una fuente de datos de BigQuery a una vista de atributos, la columna feature_timestamp no es obligatoria. En este caso, solo debes incluir los valores de atributos más recientes en la fuente de datos y Vertex AI Feature Store no busca la marca de tiempo.

    • Si deseas habilitar la administración de incorporaciones en tu almacén en línea, la fuente de datos debe contener las siguientes columnas:

    • Una columna embedding que contiene matrices del tipo float.

    • Opcional: Una o más columnas de filtrado del tipo string o matriz string.

    • Opcional: Una columna de multitud de tipo int.

  2. Cada fila en la fuente de datos es un registro completo de los valores de los atributos asociados con un ID de entidad. Si falta un valor de atributo en una de las columnas, se considera como valor nulo. Según cómo definas la vista de atributos, hay dos formas en que Vertex AI Feature Store selecciona los valores de los atributos que entrega:

    • Si la vista de atributos se define en función de los grupos de atributos y los atributos, Vertex AI Feature Store entrega el valor del atributo más reciente que no sea nulo mediante la marca de tiempo del atributo. Por ejemplo, si el valor de un atributo en particular correspondiente a la marca de tiempo más reciente es nulo, Vertex AI Feature Store entrega el valor más reciente que no sea nulo de los valores históricos del atributo.

    • Si la vista de atributos se define directamente mediante la especificación de una fuente de datos de BigQuery, cada fila debe contener un ID de entidad único. En este caso, Vertex AI Feature Store entrega todos los valores de atributos de la fuente de datos asociada.

  3. Cada columna de la tabla o de la vista de BigQuery representa un atributo. Proporciona los valores de cada atributo en una columna distinta. Si asocias la fuente de datos con un grupo de atributos y sus características, se asocia cada columna con un atributo independiente.

  4. Los tipos de datos admitidos para valores de atributos incluyen bool, int, float, string, timestamp, matrices de estos tipos de datos y bytes. Ten en cuenta que, durante la sincronización de datos, los valores de atributos de tipo timestamp se convierten en int64.

  5. La fuente de datos debe estar ubicada en la misma región que la instancia de la tienda en línea o en una multirregión que incluya o que se superponga con la región de la tienda en línea. Por ejemplo, si la tienda en línea está en us-central, la fuente de BigQuery puede estar ubicada en us-central o en US.

  6. Sincroniza los datos en una vista de atributos antes de la entrega en línea para asegurarte de entregar solo los valores de atributos más recientes.

¿Qué sigue?