Cette page explique comment créer un ensemble de données et y importer des données tabulaires. Vous pouvez ensuite utiliser AutoML Tables pour entraîner un modèle sur cet ensemble de données.
Introduction
Un ensemble de données est un objet Google Cloud qui contient les données de votre table source, ainsi que des informations de schéma qui déterminent les paramètres d'entraînement du modèle. Il sert d'entrée pour l'entraînement d'un modèle.
Un projet peut contenir plusieurs ensembles de données. Vous pouvez accéder à la liste des ensembles de données disponibles et supprimer les ensembles de données dont vous n'avez plus besoin.
Les mises à jour d'un ensemble de données ou de ses informations de schéma ont une incidence sur les modèles futurs qui se serviront de cet ensemble de données. Les modèles qui ont déjà commencé l'entraînement ne lui sont pas attribués.
Avant de commencer
Avant de pouvoir utiliser AutoML Tables, vous devez avoir configuré votre projet comme décrit dans la section Avant de commencer. Avant de pouvoir créer un ensemble de données, vous devez avoir créé vos données d'entraînement, comme décrit dans la section Préparer vos données d'entraînement.
Créer un ensemble de données
Console
Accédez à la page AutoML Tables dans la console Google Cloud pour commencer le processus de création de l'ensemble de données.
Cliquez sur Ensembles de données, puis sur Nouvel ensemble de données.
Saisissez le nom de l'ensemble de données et spécifiez la région dans laquelle il sera créé.
Pour plus d'informations, consultez la section Emplacements.
Cliquez sur Créer un ensemble de données.
L'onglet Importer s'affiche. Vous pouvez maintenant importer vos données.
REST
Pour créer un ensemble de données, vous utilisez la méthode datasets.create.
Avant d'utiliser les données de requête, effectuez les remplacements suivants:
-
endpoint:
automl.googleapis.com
pour la zone internationale eteu-automl.googleapis.com
pour la région UE. - project-id : ID de votre projet Google Cloud.
- location : emplacement de la ressource :
us-central1
pour l'emplacement mondial oueu
pour l'Union européenne. - dataset-display-name : nom à afficher de votre ensemble de données.
Méthode HTTP et URL :
POST https://endpoint/v1beta1/projects/project-id/locations/location/datasets
Corps JSON de la requête :
{ "displayName": "dataset-display-name", "tablesDatasetMetadata": { }, }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
et exécutez la commande suivante:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: project-id" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://endpoint/v1beta1/projects/project-id/locations/location/datasets"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
et exécutez la commande suivante:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://endpoint/v1beta1/projects/project-id/locations/location/datasets" | Select-Object -Expand Content
Vous devriez recevoir une réponse JSON de ce type :
{ "name": "projects/1234/locations/us-central1/datasets/TBL6543", "displayName": "sample_dataset", "createTime": "2019-12-23T23:03:34.139313Z", "updateTime": "2019-12-23T23:03:34.139313Z", "etag": "AB3BwFq6VkX64fx7z2Y4T4z-0jUQLKgFvvtD1RcZ2oikA=", "tablesDatasetMetadata": { "areStatsFresh": true "statsUpdateTime": "1970-01-01T00:00:00Z", "tablesDatasetType": "BASIC" } }
Enregistrez le nom name
du nouvel ensemble de données (issu de la réponse) afin de l'utiliser pour d'autres opérations, par exemple y importer des éléments ou entraîner un modèle.
Vous pouvez maintenant importer vos données.
Java
Si vos ressources sont situées dans la région UE, vous devez définir explicitement le point de terminaison. En savoir plus
Node.js
Si vos ressources sont situées dans la région UE, vous devez définir explicitement le point de terminaison. En savoir plus
Python
La bibliothèque cliente AutoML Tables comprend des méthodes Python supplémentaires qui simplifient l'utilisation de l'API AutoML Tables. Ces méthodes référencent les ensembles de données et les modèles par nom et non par identifiant. L'ensemble de données et les noms de modèles doivent être uniques. Pour plus d'informations, consultez la documentation de référence du client.
Si vos ressources sont situées dans la région UE, vous devez définir explicitement le point de terminaison. En savoir plus
Importer des données dans un ensemble de données
Vous ne pouvez pas importer de données dans un ensemble de données qui contient déjà des données. Vous devez d'abord créer un ensemble de données.
Console
Si nécessaire, sélectionnez votre ensemble de données dans la liste de la page Ensembles de données pour ouvrir l'onglet Importation.
Choisissez la source d'importation de vos données : BigQuery, Cloud Storage ou votre ordinateur local. Indiquez les informations requises.
Si vous chargez vos fichiers CSV à partir de votre ordinateur local, vous devez spécifier un bucket Cloud Storage. Vos fichiers sont chargés dans ce bucket avant d'être importés dans AutoML Tables. Les fichiers restent dans ce bucket après l'importation des données, sauf si vous les supprimez.
Le bucket doit se trouver au même emplacement que votre ensemble de données. En savoir plus
Cliquez sur Importer pour lancer le processus d'importation.
Une fois le processus d'importation terminé, l'onglet Entraînement s'affiche. Vous êtes prêt à entraîner votre modèle.
REST
Importez les données à l'aide de la méthode datasets.importData.
Assurez-vous que votre source d'importation respecte les exigences décrites dans la page Préparer la source d'importation.
Avant d'utiliser les données de requête, effectuez les remplacements suivants:
-
endpoint:
automl.googleapis.com
pour la zone internationale eteu-automl.googleapis.com
pour la région UE. - project-id : ID de votre projet Google Cloud.
- location : emplacement de la ressource :
us-central1
pour l'emplacement mondial oueu
pour l'Union européenne. - dataset-id : ID de votre ensemble de données Par exemple,
TBL6543
. - input-config: informations sur l'emplacement de votre source de données :
- Pour BigQuery : { "bigquerySource": { "inputUri": "bq://projectId.bqDatasetId.bqTableId } }"
- Pour Cloud Storage : { "gcsSource": { "inputUris": ["gs://bucket-name/csv-file-name.csv"] } }
Méthode HTTP et URL :
POST https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData
Corps JSON de la requête :
{ "inputConfig": input-config, }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
et exécutez la commande suivante:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: project-id" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
et exécutez la commande suivante:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-id" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://endpoint/v1beta1/projects/project-id/locations/location/datasets/dataset-id:importData" | Select-Object -Expand Content
Vous devriez recevoir une réponse JSON de ce type :
{ "name": "projects/292381/locations/us-central1/operations/TBL6543", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata", "createTime": "2019-12-26T20:42:06.092180Z", "updateTime": "2019-12-26T20:42:06.092180Z", "cancellable": true, "worksOn": [ "projects/292381/locations/us-central1/datasets/TBL6543" ], "importDataDetails": {}, "state": "RUNNING" } }
L'importation de données dans un ensemble de données est une opération de longue durée. Vous pouvez interroger l'état de l'opération ou attendre qu'elle ait abouti. En savoir plus
Une fois le processus d'importation terminé, vous êtes prêt à entraîner votre modèle.
Java
Si vos ressources sont situées dans la région UE, vous devez définir explicitement le point de terminaison. En savoir plus
Node.js
Si vos ressources sont situées dans la région UE, vous devez définir explicitement le point de terminaison. En savoir plus
Python
La bibliothèque cliente AutoML Tables comprend des méthodes Python supplémentaires qui simplifient l'utilisation de l'API AutoML Tables. Ces méthodes référencent les ensembles de données et les modèles par nom et non par identifiant. L'ensemble de données et les noms de modèles doivent être uniques. Pour plus d'informations, consultez la documentation de référence du client.
Si vos ressources sont situées dans la région UE, vous devez définir explicitement le point de terminaison. En savoir plus
Étapes suivantes
- Entraînez votre modèle.
- Gérez vos ensembles de données.
- Découvrez comment utiliser les opérations de longue durée.