Requisitos de los datos de origen

Vertex Feature Store puede transferir datos desde tablas en BigQuery o archivos en Cloud Storage. En el caso de los archivos de Cloud Storage, deben estar en formato Avro o CSV.

Cada elemento (o fila) debe cumplir con los siguientes requisitos:

  • Debes tener una columna para los ID de las entidades, y los valores deben ser del tipo STRING. Esta columna contiene los ID de las entidades para los que se usan los valores de los atributos.

  • Los tipos de valores de datos de origen deben coincidir con los tipos de valor de la función de destino en el almacén de atributos. Por ejemplo, los valores booleanos deben transferirse a un atributo de tipo BOOL.

  • Todas las columnas deben tener un encabezado de tipo STRING. No hay restricciones para el nombre de los encabezados.

    • En las tablas de BigQuery, el encabezado de la columna es el nombre de la columna.
    • En Avro, el encabezado de la columna se define mediante el esquema de Avro que está asociado con los datos binarios.
    • Para los archivos CSV, el encabezado de la columna es la primera fila.
  • Si proporcionas una columna para las marcas de tiempo de generación de atributos, usa uno de los siguientes formatos de marca de tiempo:

    • Para las tablas de BigQuery, las marcas de tiempo deben estar en la columna TIMESTAMP.
    • Para Avro, las marcas de tiempo deben ser de tipo largo y de tipo timestamp-micros lógico
    • Para los archivos CSV, las marcas de tiempo deben estar en el formato RFC 3339.
  • Los archivos CSV no pueden incluir tipos de datos de arreglo. En su lugar, usa Avro o BigQuery.

  • Para los tipos de array, no puedes incluir un valor nulo en el array. Sin embargo, puedes incluir un array vacío.

Marcas de tiempo del valor de los atributos

En el caso de las transferencias por lotes, Feature Store requiere marcas de tiempo proporcionadas por el usuario para los valores de las funciones transferidas. Puedes especificar una marca de tiempo específica para cada valor o especificar la misma marca de tiempo para todos los valores:

  • Si las marcas de tiempo de los valores de los atributos son diferentes, especifica las marcas de tiempo en una columna de tus datos de origen. Cada fila debe tener su propia marca de tiempo que indique cuándo se generó el valor del atributo. En la solicitud de transferencia, especifica el nombre de la columna para identificar la columna de marca de tiempo.
  • Si la marca de tiempo para todos los valores de atributos es la misma, puedes especificarla como un parámetro en tu solicitud de transferencia. También puedes especificar la marca de tiempo en una columna de tus datos de origen, en la que cada fila tiene la misma marca de tiempo.

Región de la fuente de datos

Si los datos de origen están en BigQuery o Cloud Storage, el conjunto de datos o el bucket de origen debe estar en la misma región o en la misma ubicación multirregional que la tienda de funciones. Por ejemplo, un almacén de funciones en us-central1 puede transferir datos solo desde buckets de Cloud Storage o conjuntos de datos de BigQuery que se encuentran en us-central1 o en la ubicación multirregional de EE.UU. No puedes usar datos de, por ejemplo, us-east1. Además, no se admiten los datos de origen de buckets de región doble.

¿Qué sigue?