Exigences liées aux données sources

Pour l'importation par lot, Vertex AI Feature Store (ancien) peut importer des données à partir de tables BigQuery ou de fichiers Cloud Storage.

  • Utilisez une table BigQuery si vous devez importer l'ensemble de données complet et que vous n'avez pas besoin de filtres de partitionnement.

  • Utilisez une vue BigQuery si vous devez importer un sous-ensemble spécifique de l'ensemble de données. Cette option est plus rapide et vous permet d'importer des sélections spécifiques de l'ensemble de données complet, y compris plusieurs tables générées à partir des données.

  • Les données contenues dans les fichiers importées à partir de Cloud Storage doivent être au format AVRO ou CSV.

Pour l'importation en flux continu, vous fournissez les valeurs des caractéristiques à importer dans la requête API. Ces exigences relatives aux données sources ne s'appliquent pas. Pour en savoir plus, consultez la documentation de référence de l'API writeFeatureValues.

Chaque élément (ou ligne) doit respecter les exigences suivantes :

  • Vous devez disposer d'une colonne pour les ID d'entité, et les valeurs doivent être de type STRING. Cette colonne contient les ID d'entité pour lesquels les valeurs des caractéristiques sont définies.

  • Les types de valeurs des données sources doivent correspondre aux types de valeurs de la fonctionnalité de destination dans le featurestore. Par exemple, les valeurs booléennes doivent être importées dans une caractéristique de type BOOL.

  • Toutes les colonnes doivent comporter un en-tête de type STRING. Il n'existe aucune restriction concernant le nom des en-têtes.

    • Pour les tables et les vues BigQuery, l'en-tête de colonne correspond au nom de la colonne.
    • Pour AVRO, l'en-tête de colonne est défini par le schéma AVRO associé aux données binaires.
    • Pour les fichiers CSV, l'en-tête de colonne correspond à la première ligne.
  • Si vous fournissez une colonne pour les horodatages de génération de caractéristiques, utilisez l'un des formats d'horodatage suivants :

    • Pour les tables et les vues BigQuery, les codes temporels doivent figurer dans la colonne TIMESTAMP.
    • Pour Avro, les codes temporels doivent être de type long et les timestamp-micros de type logique.
    • Pour les fichiers CSV, les codes temporels doivent être au format RFC 3339.
  • Les fichiers CSV ne peuvent pas inclure de types de données de tableau. Utilisez Avro ou BigQuery à la place.

  • Pour les types de tableau, vous ne pouvez pas inclure de valeur nulle dans le tableau. Cependant, vous pouvez inclure un tableau vide.

Horodatages des valeurs de caractéristiques

Pour les importations par lots, Vertex AI Feature Store (ancien) impose les horodatages fournis par l'utilisateur pour les valeurs de caractéristiques importées. Vous pouvez spécifier un horodatage spécifique pour chaque valeur ou spécifier le même horodatage pour toutes les valeurs :

  • Si les horodatages des valeurs de caractéristiques sont différents, spécifiez les horodatages dans une colonne de vos données sources. Chaque ligne doit avoir son propre horodatage indiquant le moment où la valeur de la caractéristique a été générée. Dans votre requête d'importation, vous spécifiez le nom de la colonne pour identifier la colonne d'horodatage.
  • Si l'horodatage de toutes les valeurs de caractéristiques est identique, vous pouvez le spécifier en tant que paramètre dans votre requête d'importation. Vous pouvez également spécifier l'horodatage dans une colonne de vos données sources, où chaque ligne a le même horodatage.

Région de la source de données

Si vos données source se trouvent dans BigQuery ou dans Cloud Storage, l'ensemble de données ou le bucket source doit se trouver dans la même région ou dans le même emplacement multirégional que votre featurestore. Par exemple, un featurestore dans us-central1 peut uniquement importer des données à partir de buckets Cloud Storage ou d'ensembles de données BigQuery situés dans la région us-central1 ou situés dans l'emplacement multirégional "US". Vous ne pouvez pas importer de données à partir de us-east1, par exemple. En outre, les données sources des buckets birégionaux ne sont pas compatibles.

Étapes suivantes