Exigences liées aux données sources

Vertex Feature Store peut ingérer des données issues de tables BigQuery ou de fichiers dans Cloud Storage. Pour les fichiers Cloud Storage, ils doivent être au format Avro ou CSV.

Chaque élément (ou ligne) doit respecter les exigences suivantes :

  • Vous devez disposer d'une colonne pour les ID d'entité, et les valeurs doivent être de type STRING. Cette colonne contient les ID d'entité pour lesquels les valeurs des caractéristiques sont définies.

  • Les types de valeurs des données sources doivent correspondre aux types de valeurs de la fonctionnalité de destination dans le featurestore. Par exemple, les valeurs booléennes doivent être ingérées dans une caractéristique de type BOOL.

  • Toutes les colonnes doivent comporter un en-tête de type STRING. Il n'existe aucune restriction concernant le nom des en-têtes.

    • Pour les tables BigQuery, l'en-tête de colonne correspond au nom de la colonne.
    • Pour Avro, l'en-tête de colonne est défini par le schéma Avro associé aux données binaires.
    • Pour les fichiers CSV, l'en-tête de colonne correspond à la première ligne.
  • Si vous fournissez une colonne pour les horodatages de génération de caractéristiques, utilisez l'un des formats d'horodatage suivants :

    • Pour les tables BigQuery, les horodatages doivent figurer dans la colonne TIMESTAMP.
    • Pour Avro, les horodatages doivent être de type long et les timestamp-micros de type logique.
    • Pour les fichiers CSV, les horodatages doivent être au format RFC 3339.
  • Les fichiers CSV ne peuvent pas inclure de types de données de tableau. Utilisez Avro ou BigQuery à la place.

  • Pour les types de tableau, vous ne pouvez pas inclure de valeur nulle dans le tableau. Cependant, vous pouvez inclure un tableau vide.

Horodatages des valeurs de caractéristiques

Pour les ingestions par lots, Feature Store impose les horodatages fournis par l'utilisateur pour les valeurs de caractéristiques ingérées. Vous pouvez spécifier un horodatage spécifique pour chaque valeur ou spécifier le même horodatage pour toutes les valeurs :

  • Si les horodatages des valeurs de caractéristiques sont différents, spécifiez les horodatages dans une colonne de vos données sources. Chaque ligne doit avoir son propre horodatage indiquant le moment où la valeur de la caractéristique a été générée. Dans votre requête d'ingestion, vous spécifiez le nom de la colonne pour identifier la colonne d'horodatage.
  • Si l'horodatage de toutes les valeurs de caractéristiques est identique, vous pouvez le spécifier en tant que paramètre dans votre requête d'ingestion. Vous pouvez également spécifier l'horodatage dans une colonne de vos données sources, où chaque ligne a le même horodatage.

Région de la source de données

Si vos données source se trouvent dans BigQuery ou dans Cloud Storage, l'ensemble de données ou le bucket source doit se trouver dans la même région ou dans le même emplacement multirégional que votre featurestore. Par exemple, un featurestore dans us-central1 peut ingérer des données seulement à partir de buckets Cloud Storage ou d'ensembles de données BigQuery situés dans la région us-central1 ou situés dans l'emplacement multirégional "US". Vous ne pouvez pas ingérer les données provenant, par exemple, de us-east1. En outre, les données sources des buckets birégionaux ne sont pas compatibles.

Étape suivante