Cette page explique comment créer un ensemble de données Vertex AI à partir de données tabulaires afin de commencer à entraîner les modèles de classification et de régression. Vous pouvez créer un ensemble de données à l'aide de la console Google Cloud ou de l'API Vertex AI.
Avant de commencer
Pour pouvoir créer un ensemble de données Vertex AI à partir de données tabulaires, vous devez d'abord préparer vos données. Pour plus d'informations, consultez :
- Préparer les données d'entraînement tabulaires des modèles de classification et de régression
- Bonnes pratiques pour la création de données d'entraînement tabulaires
Créer un ensemble de données vide et lui associer les données préparées
Pour créer un modèle de machine learning à des fins de classification ou de régression, vous devez d'abord disposer d'une collection représentative de données à entraîner. Utilisez la console Google Cloud ou l'API pour associer les données préparées à l'ensemble de données. En associant vos données, vous pouvez apporter des modifications et lancer l'entraînement du modèle.
Console Google Cloud
- Dans la section Vertex AI de Google Cloud Console, accédez à la page Ensembles de données.
- Cliquez sur Créer pour ouvrir la page des détails de création de l'ensemble de données.
- Modifiez le champ Nom de l'ensemble de données pour créer un nom à afficher descriptif de l'ensemble de données.
- Sélectionnez l'onglet Tabulaire.
- Sélectionnez l'objectif Régression/Classification.
- Sélectionnez une région dans la liste déroulante Région.
- Si vous souhaitez utiliser des clés de chiffrement gérées par le client (CMEK) avec votre ensemble de données, ouvrez la page Options avancées, puis indiquez votre clé. (Bêta)
- Cliquez sur Créer pour créer un ensemble de données vide, puis accédez à l'onglet Source.
- Sélectionnez l'une des options suivantes, en fonction de votre source de données.
Fichiers CSV sur votre ordinateur
- Cliquez sur Importer des fichiers CSV depuis votre ordinateur.
- Cliquez sur Sélectionner des fichiers, puis choisissez tous les fichiers locaux à importer dans un bucket Cloud Storage.
- Dans la section Sélectionner un chemin Cloud Storage, saisissez le chemin d'accès au bucket Cloud Storage ou cliquez sur Parcourir pour choisir un emplacement de bucket.
Fichiers CSV dans Cloud Storage
- Cliquez sur Sélectionner des fichiers CSV depuis Cloud Storage.
- Dans la section Sélectionner des fichiers CSV depuis Cloud Storage, saisissez le chemin d'accès au bucket Cloud Storage ou cliquez sur Parcourir pour choisir l'emplacement de vos fichiers CSV.
Une table ou une vue dans BigQuery
- Cliquez sur Sélectionner une table ou une vue à partir de BigQuery.
- Saisissez les ID du projet, de l'ensemble de données et de la table correspondant à votre fichier d'entrée.
- Cliquez sur Continuer.
Votre source de données est associée à votre ensemble de données.
API
Lorsque vous créez un ensemble de données, vous l'associez également à sa source de données. Le code nécessaire pour créer un ensemble de données varie selon si les données d'entraînement résident dans Cloud Storage ou BigQuery. Si la source de données réside dans un autre projet, veillez à configurer les autorisations requises.Créer un ensemble de données avec des données dans Cloud Storage
REST
Vous utilisez la méthode datasets.create pour créer un ensemble de données.
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
-
LOCATION : région où l'ensemble de données sera stocké. Il doit s'agir d'une région compatible avec les ressources de l'ensemble de données. Par exemple,
us-central1
. - PROJECT : l'ID de votre projet.
- DATASET_NAME : nom à afficher pour l'ensemble de données.
-
METADATA_SCHEMA_URI : URI du fichier de schéma pour votre objectif.
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml
-
URI : chemins (URI) vers les buckets Cloud Storage contenant les données d'entraînement.
Il peut y en avoir plusieurs. Chaque URI se présente sous la forme suivante :
gs://GCSprojectId/bucketName/fileName
- PROJECT_NUMBER : numéro de projet généré automatiquement pour votre projet.
Méthode HTTP et URL :
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Corps JSON de la requête :
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "gcs_source": { "uri": [URI1, URI2, ...] } } } }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Vous devriez recevoir une réponse JSON de ce type :
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Avant d'essayer cet exemple, suivez les instructions de configuration pour Java décrites dans le guide de démarrage rapide de Vertex AI à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Java.
Pour vous authentifier auprès de Vertex AI, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Avant d'essayer cet exemple, suivez les instructions de configuration pour Node.js décrites dans le guide de démarrage rapide de Vertex AI à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Node.js.
Pour vous authentifier auprès de Vertex AI, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez la section Installer le SDK Vertex AI pour Python. Pour en savoir plus, consultez la documentation de référence de l'API Python.
Créer un ensemble de données avec des données dans BigQuery
REST
Vous utilisez la méthode datasets.create pour créer un ensemble de données.Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
-
LOCATION : région où l'ensemble de données sera stocké. Il doit s'agir d'une région compatible avec les ressources de l'ensemble de données. Par exemple,
us-central1
. - PROJECT : l'ID de votre projet.
- DATASET_NAME : nom à afficher pour l'ensemble de données.
-
METADATA_SCHEMA_URI : URI du fichier de schéma pour votre objectif.
gs://google-cloud-aiplatform/schema/dataset/metadata/tabular_1.0.0.yaml
-
URI : chemin d'accès à la table BigQuery contenant les données d'entraînement. Dans le formulaire :
bq://bqprojectId.bqDatasetId.bqTableId
- PROJECT_NUMBER : numéro de projet généré automatiquement pour votre projet.
Méthode HTTP et URL :
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets
Corps JSON de la requête :
{ "display_name": "DATASET_NAME", "metadata_schema_uri": "METADATA_SCHEMA_URI", "metadata": { "input_config": { "bigquery_source" :{ "uri": "URI } } } }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT/locations/LOCATION/datasets" | Select-Object -Expand Content
Vous devriez recevoir une réponse JSON de ce type :
{ "name": "projects/PROJECT_NUMBER/locations/LOCATION/datasets/DATASET_ID/operations/OPERATION_ID", "metadata": { "@type": "type.googleapis.com/google.cloud.aiplatform.v1.CreateDatasetOperationMetadata", "genericMetadata": { "createTime": "2020-07-07T21:27:35.964882Z", "updateTime": "2020-07-07T21:27:35.964882Z" } }
Java
Avant d'essayer cet exemple, suivez les instructions de configuration pour Java décrites dans le guide de démarrage rapide de Vertex AI à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Java.
Pour vous authentifier auprès de Vertex AI, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Avant d'essayer cet exemple, suivez les instructions de configuration pour Node.js décrites dans le guide de démarrage rapide de Vertex AI à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Node.js.
Pour vous authentifier auprès de Vertex AI, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez la section Installer le SDK Vertex AI pour Python. Pour en savoir plus, consultez la documentation de référence de l'API Python.
Obtenir l'état de l'opération
Certaines requêtes démarrent des opérations de longue durée qui nécessitent du temps. Ces requêtes renvoient un nom d'opération, que vous pouvez utiliser pour afficher l'état de l'opération ou pour annuler l'opération. Vertex AI propose des méthodes d'assistance pour appeler les opérations de longue durée. Pour en savoir plus, consultez la section Travailler avec des opérations de longue durée.