Cette page explique comment créer un ensemble de données Vertex AI à partir de données tabulaires afin de commencer à entraîner des modèles de prévision. Vous pouvez créer un ensemble de données à l'aide de la console Google Cloud ou de l'API Vertex AI.
Avant de commencer
Avant de pouvoir créer un ensemble de données Vertex AI à partir de données tabulaires, vous devez préparer les données d'entraînement.
Créer un ensemble de données vide et lui associer les données préparées
Pour créer un modèle de machine learning à des fins de prévision, vous devez d'abord disposer d'une collection représentative de données à entraîner. Utilisez la console Google Cloud ou l'API pour associer les données préparées à l'ensemble de données.
Lorsque vous créez un ensemble de données, vous l'associez également à sa source de données. Les données d'entraînement peuvent être un fichier CSV dans Cloud Storage ou une table dans BigQuery. Si la source de données réside dans un autre projet, veillez à configurer les autorisations requises.
console Google Cloud
- Dans la section Vertex AI de Google Cloud Console, accédez à la page Ensembles de données.
- Cliquez sur Créer pour ouvrir la page des détails de création de l'ensemble de données.
- Modifiez le champ Nom de l'ensemble de données pour créer un nom à afficher descriptif de l'ensemble de données.
- Sélectionnez l'onglet Tabulaire.
- Sélectionnez l'objectif Prévision.
- Sélectionnez une région dans la liste déroulante Région.
- Cliquez sur Créer pour créer un ensemble de données vide, puis accédez à l'onglet Source.
- Sélectionnez l'une des options suivantes, en fonction de votre source de données.
Fichiers CSV sur votre ordinateur
- Cliquez sur Importer des fichiers CSV depuis votre ordinateur.
- Cliquez sur Sélectionner des fichiers, puis choisissez tous les fichiers locaux à importer dans un bucket Cloud Storage.
- Dans la section Sélectionner un chemin Cloud Storage, saisissez le chemin d'accès au bucket Cloud Storage ou cliquez sur Parcourir pour choisir un emplacement de bucket.
Fichiers CSV dans Cloud Storage
- Cliquez sur Sélectionner des fichiers CSV depuis Cloud Storage.
- Dans la section Sélectionner des fichiers CSV depuis Cloud Storage, saisissez le chemin d'accès au bucket Cloud Storage ou cliquez sur Parcourir pour choisir l'emplacement de vos fichiers CSV.
Une table ou une vue dans BigQuery
- Cliquez sur Sélectionner une table ou une vue à partir de BigQuery.
- Saisissez les ID du projet, de l'ensemble de données et de la table correspondant à votre fichier d'entrée.
- Cliquez sur Continuer.
Votre source de données est associée à votre ensemble de données.
-
Dans l'onglet Analyser, spécifiez la colonne Horodatage et la colonne Identifiant de la série correspondant à cet ensemble de données.
Vous pouvez également les indiquer lorsque vous entraînez votre modèle. Cependant, un ensemble de données de prévision contient généralement des colonnes propres à l'heure et à l'identifiant de séries temporelles. Nous vous recommandons donc de les spécifier dans l'ensemble de données.
API : CSV
REST
Vous utilisez la méthode datasets.create pour créer un ensemble de données.
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
-
LOCATION : région où l'ensemble de données sera stocké. Il doit s'agir d'une région compatible avec les ressources de l'ensemble de données. Par exemple,
us-central1
. - PROJECT : l'ID de votre projet.
- DATASET_NAME : nom à afficher pour l'ensemble de données.
-
METADATA_SCHEMA_URI : URI du fichier de schéma pour votre objectif.
gs://google-cloud-aiplatform/schema/dataset/metadata/time_series_1.0.0.yaml
-
URI : chemins (URI) vers les buckets Cloud Storage contenant les données d'entraînement.
Il peut y en avoir plusieurs. Chaque URI se présente sous la forme suivante :
gs://GCSprojectId/bucketName/fileName
- PROJECT_NUMBER : numéro de projet généré automatiquement pour votre projet.
Méthode HTTP et URL :
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Corps JSON de la requête :
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "gcs_source": { "uri": [URI1, URI2, ...] } } } }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Vous devriez recevoir une réponse JSON de ce type :
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Avant d'essayer cet exemple, suivez les instructions de configuration pour Java décrites dans le guide de démarrage rapide de Vertex AI à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Java.
Pour vous authentifier auprès de Vertex AI, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Avant d'essayer cet exemple, suivez les instructions de configuration pour Node.js décrites dans le guide de démarrage rapide de Vertex AI à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Node.js.
Pour vous authentifier auprès de Vertex AI, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez la section Installer le SDK Vertex AI pour Python. Pour en savoir plus, consultez la documentation de référence de l'API Python.
API : BigQuery
REST
Vous utilisez la méthode datasets.create pour créer un ensemble de données.
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
-
LOCATION : région où l'ensemble de données sera stocké. Il doit s'agir d'une région compatible avec les ressources de l'ensemble de données. Par exemple,
us-central1
. - PROJECT : l'ID de votre projet.
- DATASET_NAME : nom à afficher pour l'ensemble de données.
-
METADATA_SCHEMA_URI : URI du fichier de schéma pour votre objectif.
gs://google-cloud-aiplatform/schema/dataset/metadata/time_series_1.0.0.yaml
-
URI : chemin d'accès à la table BigQuery contenant les données d'entraînement. Dans le formulaire :
bq://bqprojectId.bqDatasetId.bqTableId
- PROJECT_NUMBER : numéro de projet généré automatiquement pour votre projet.
Méthode HTTP et URL :
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Corps JSON de la requête :
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "bigquery_source" :{ "uri": "URI } } } }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Vous devriez recevoir une réponse JSON de ce type :
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Avant d'essayer cet exemple, suivez les instructions de configuration pour Java décrites dans le guide de démarrage rapide de Vertex AI à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Java.
Pour vous authentifier auprès de Vertex AI, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Avant d'essayer cet exemple, suivez les instructions de configuration pour Node.js décrites dans le guide de démarrage rapide de Vertex AI à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Node.js.
Pour vous authentifier auprès de Vertex AI, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez la section Installer le SDK Vertex AI pour Python. Pour en savoir plus, consultez la documentation de référence de l'API Python.
Obtenir l'état de l'opération
Certaines requêtes démarrent des opérations de longue durée qui nécessitent du temps. Ces requêtes renvoient un nom d'opération, que vous pouvez utiliser pour afficher l'état de l'opération ou pour annuler l'opération. Vertex AI propose des méthodes d'assistance pour appeler les opérations de longue durée. Pour en savoir plus, consultez la section Travailler avec des opérations de longue durée.