Para empezar a servir funciones online con Vertex AI Feature Store, primero debes configurar tu fuente de datos de funciones en BigQuery de la siguiente manera:
Crea una tabla o una vista de BigQuery con los datos de tus funciones. Para cargar datos de características en una tabla o vista de BigQuery, puedes crear un conjunto de datos de BigQuery con los datos, crear una tabla de BigQuery y, a continuación, cargar los datos de características del conjunto de datos en la tabla.
Una vez que hayas cargado los datos de las características en la tabla o vista de BigQuery, debes hacer que esta fuente de datos esté disponible en Feature Store de Vertex AI para el servicio online. Hay dos formas de conectar la fuente de datos a recursos de servicio online, como almacenes online e instancias de vistas de características:
Registre la fuente de datos creando grupos de características y características: puede asociar grupos de características y características con instancias de vistas de características en su tienda online. Puede dar formato a los datos de una de las siguientes formas:
Da formato de serie temporal a tus datos incluyendo una columna de marca de tiempo de la función. Vertex AI Feature Store solo ofrece los valores de características más recientes de cada ID de entidad único, en función de la marca de tiempo de la característica de esta columna.
Formatea los datos sin incluir columnas de marca de tiempo de las características. Vertex AI Feature Store gestiona las marcas de tiempo y solo proporciona los valores de características más recientes de cada ID de entidad único.
Para obtener información sobre cómo crear grupos de funciones, consulta el artículo Crear un grupo de funciones. Para obtener información sobre cómo crear funciones en un grupo de funciones, consulta el artículo sobre cómo crear una función.
Ofrecer directamente las características de la fuente de datos sin crear grupos de características ni características: puede especificar el URI de la fuente de datos en la vista de características. Ten en cuenta que, en este caso, no puedes dar formato de serie temporal a tus datos ni incluir datos históricos en la fuente de BigQuery. Cada fila debe contener los valores de las características más recientes correspondientes a un ID único. No se admiten varias apariciones del mismo ID de entidad en diferentes filas.
Como Vertex AI Feature Store te permite mantener los datos de las características en BigQuery y ofrece características de la fuente de datos de BigQuery, no es necesario importar ni copiar las características en un almacén sin conexión.
Directrices para preparar fuentes de datos
Siga estas directrices para comprender el esquema y las restricciones al preparar la fuente de datos en BigQuery:
Incluya las siguientes columnas en la fuente de datos:
Columnas de ID de entidad: la fuente de datos debe tener al menos una columna de ID de entidad con valores
string
oint
. El nombre predeterminado de esta columna esentity_id
. También puedes usar otro nombre para esta columna. El tamaño de cada valor de esta columna debe ser inferior a 4 KB.Ten en cuenta que también puedes designar un registro de características creando el ID de entidad con características de varias columnas. En este caso, puede incluir varias columnas de ID de entidad en la fuente de datos. El nombre de cada columna de ID de entidad debe ser único. Si registra la fuente de datos creando grupos de características, defina las columnas de ID de entidad de cada grupo de características. De lo contrario, si asocia directamente la fuente de datos con una vista de características, configure las vistas de características para especificar las columnas de ID de entidad.
Ten en cuenta que puedes incluir varias columnas de ID en una fuente de datos. En ese caso, el nombre de cada columna de ID de entidad debe ser único. Puede configurar sus grupos de características o vistas de características para crear el ID de entidad usando los valores de cada columna de un registro de características.
Columna de marca de tiempo de la función: opcional. Si registra la fuente de datos mediante grupos de funciones y funciones, y necesita dar formato a los datos como una serie temporal, incluya una columna de marca de tiempo de la función. La columna de marca de tiempo contiene valores de tipo
timestamp
. El nombre predeterminado de la columna de marca de tiempo esfeature_timestamp
. Si quiere usar otro nombre de columna, utilice el parámetrotime_series
para definir la columna de marca de tiempo del grupo de características.Si no especificas una columna de marca de tiempo para dar formato a tus datos como una serie temporal, Vertex AI Feature Store gestionará las marcas de tiempo de las características y proporcionará los valores de características más recientes.
Si asocias directamente una fuente de datos de BigQuery con una vista de características, no es necesario que incluyas la columna
feature_timestamp
. En este caso, solo debes incluir los valores de las características más recientes en la fuente de datos y Vertex AI Feature Store no buscará la marca de tiempo.Insertar y filtrar columnas: opcional. Si quiere usar la gestión de inserciones en una tienda online creada para el servicio online optimizado, la fuente de datos debe contener las siguientes columnas:
Una columna
embedding
que contiene matrices de tipofloat
.Opcional: una o varias columnas de filtro de tipo
string
o matrizstring
.Opcional: una columna de aglomeración de tipo
int
.
Cada fila de la fuente de datos es un registro completo de los valores de las características asociados a un ID de entidad. Si falta un valor de la función en una de las columnas, se considera un valor nulo.
Cada columna de la tabla o vista de BigQuery representa una característica. Proporcione los valores de cada función en una columna independiente. Si va a asociar la fuente de datos con un grupo de funciones y con funciones, asocie cada columna con una función independiente.
Los tipos de datos admitidos para los valores de las características son
bool
,int
,float
,string
,timestamp
, matrices de estos tipos de datos y bytes. Ten en cuenta que, durante la sincronización de datos, los valores de las características de tipotimestamp
se convierten enint64
.La fuente de datos debe estar ubicada en la misma región que la instancia de la tienda online o en una multirregión que incluya o se solape con la región de la tienda online. Por ejemplo, si la tienda online está en
us-central
, la fuente de BigQuery puede estar enus-central
oUS
.Sincroniza los datos de una vista de características antes de la publicación online para asegurarte de que solo se publiquen los valores de características más recientes. Si usas la sincronización de datos programada, puede que tengas que sincronizar los datos manualmente en la vista de la función. Sin embargo, si usas la sincronización continua de datos con el servicio online optimizado, no tendrás que sincronizar los datos manualmente.
Siguientes pasos
Consulta cómo crear grupos de funciones y funciones.
Consulta cómo crear una vista de funciones.
Tipos de servicio online en Vertex AI Feature Store.