Gérer les ensembles de données
Un ensemble de données contient des échantillons représentatifs du type de contenu que vous souhaitez classifier, dotés des libellés de catégorie que le modèle personnalisé doit utiliser. Il sert d'entrée pour l'entraînement d'un modèle.
Voici les principales étapes à suivre pour créer un ensemble de données :
- Créer un ensemble de données et spécifier s'il faut autoriser plusieurs étiquettes sur chaque élément.
- Importer des éléments de données dans l'ensemble de données.
- Ajouter une étiquette aux éléments.
Un projet peut avoir plusieurs ensembles de données, chacun servant à entraîner un modèle distinct. Vous pouvez obtenir la liste des ensembles de données disponibles et supprimer les ensembles de données dont vous n'avez plus besoin.
Créer un ensemble de données
La première étape de l'élaboration d'un modèle personnalisé consiste à créer un ensemble de données vide, qui contiendra à terme les données d'entraînement du modèle.
UI Web
L'interface utilisateur d'AutoML Video vous permet de créer un ensemble de données et d'y importer des éléments à partir de la même page.- Ouvrez l'interface utilisateur d'AutoML Video. La page Datasets (Ensembles de données) indique l'état des ensembles de données créés précédemment pour le projet en cours. Si vous souhaitez ajouter un ensemble de données pour un autre projet, sélectionnez ce projet dans la liste déroulante située dans l'angle supérieur droit de la barre de titre.
- Sur la page Datasets (Ensembles de données), cliquez sur Create Dataset (Créer un ensemble de données).
L'écran suivant s'affiche : - Saisissez des informations sur l'ensemble de données :
- Spécifiez le nom de cet ensemble de données.
- Sélectionnez Classification de vidéos.
- Cliquez sur Créer un ensemble de données.
L'écran suivant s'affiche :
- Spécifiez le nom de cet ensemble de données.
- Saisissez les informations suivantes :
- Fournissez l'URI Cloud Storage du fichier CSV contenant les URI de vos données d'entraînement (consultez la page Préparer les données).
Dans ce guide de démarrage rapide, utilisez:
automl-video-demo-data/hmdb_split1.csv
- Cliquez sur Continue (Continuer) pour lancer l'importation des données.
L'écran suivant s'affiche :
- Fournissez l'URI Cloud Storage du fichier CSV contenant les URI de vos données d'entraînement (consultez la page Préparer les données).
Le processus d'importation peut prendre un certain temps, en fonction du nombre de vidéos fournies et de leur durée.
REST
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- dataset-name : nom de l'ensemble de données à afficher dans l'interface
- Remarque :
- project-number : numéro de votre projet.
- location-id : région cloud dans laquelle l'annotation doit avoir lieu. Les régions cloud compatibles sont les suivantes :
us-east1
,us-west1
,europe-west1
etasia-east1
. Si aucune région n'est spécifiée, une région sera déterminée en fonction de l'emplacement du fichier vidéo.
Méthode HTTP et URL :
POST https://automl.googleapis.com/v1beta1/projects/project-number/locations/location-id/datasets
Corps JSON de la requête :
{ "displayName": "dataset-name", "videoClassificationDatasetMetadata": { } }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: project-number" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
" https://automl.googleapis.com/v1beta1/projects/project-number/locations/location-id/datasets"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-number" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri " https://automl.googleapis.com/v1beta1/projects/project-number/locations/location-id/datasets" | Select-Object -Expand Content
name
pour votre opération. Voici un exemple de ce type de réponse, où project-number
est le numéro de votre projet et operation-id
est l'ID de l'opération de longue durée créée pour la requête.
Java
Pour vous authentifier auprès d'AutoML Video, configurez les identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Pour vous authentifier auprès d'AutoML Video, configurez les identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour vous authentifier auprès d'AutoML Video, configurez les identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Importer des éléments dans un ensemble de données
Une fois que vous avez créé un ensemble de données, vous pouvez importer des données étiquetées à partir de fichiers CSV stockés dans un bucket Cloud Storage. Pour plus de détails sur la préparation des données et la création d'un fichier CSV à importer, consultez la page Préparer les données d'entraînement.
Vous pouvez importer des éléments dans un ensemble de données vide, ou importer des éléments supplémentaires dans un ensemble de données existant.
UI Web
Vos données sont importées lorsque vous créez votre ensemble de données.REST
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- input-uri : bucket Cloud Storage contenant le fichier que vous souhaitez annoter, y compris son nom. Doit commencer par gs://. Par exemple :
"inputUris": ["gs://automl-video-demo-data/hmdb_split1.csv"]
- dataset-id : remplacez cette valeur par l'identifiant par votre ensemble de données, et non par le nom à afficher. Par exemple :
VCN4798585402963263488
- Remarque :
- project-number : numéro de votre projet.
- location-id : région cloud dans laquelle l'annotation doit avoir lieu. Les régions cloud compatibles sont les suivantes :
us-east1
,us-west1
,europe-west1
etasia-east1
. Si aucune région n'est spécifiée, une région sera déterminée en fonction de l'emplacement du fichier vidéo.
Méthode HTTP et URL :
POST https://automl.googleapis.com/v1beta1/projects/project-number/locations/location-id/datasets/dataset-id:importData
Corps JSON de la requête :
{ "inputConfig": { "gcsSource": { "inputUris": input-uri } } }
Pour envoyer votre requête, choisissez l'une des options suivantes :
curl
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "x-goog-user-project: project-number" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
" https://automl.googleapis.com/v1beta1/projects/project-number/locations/location-id/datasets/dataset-id:importData"
PowerShell
Enregistrez le corps de la requête dans un fichier nommé request.json
, puis exécutez la commande suivante :
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred"; "x-goog-user-project" = "project-number" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri " https://automl.googleapis.com/v1beta1/projects/project-number/locations/location-id/datasets/dataset-id:importData" | Select-Object -Expand Content
VCN7506374678919774208
.
Vous pouvez obtenir l'état de la tâche à l'aide de l'ID d'opération. Vous trouverez un exemple dans la section Obtenir l'état d'une opération.
Java
Pour vous authentifier auprès d'AutoML Video, configurez les identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Pour vous authentifier auprès d'AutoML Video, configurez les identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour vous authentifier auprès d'AutoML Video, configurez les identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Appliquer des libellés aux éléments d'entraînement
Chaque élément d'un ensemble de données doit être associé à au moins une étiquette de catégorie pour pouvoir servir à l'entraînement d'un modèle. AutoML Video ne tient pas compte des éléments sans étiquette de catégorie. Vous pouvez attribuer des étiquettes à vos éléments d'entraînement de deux manières :
- En incluant des étiquettes dans votre fichier CSV
- En attribuant des étiquettes à vos éléments dans l'interface utilisateur d'AutoML Video
Pour savoir comment attribuer des étiquettes aux éléments dans votre fichier CSV, consultez la page Préparer les données d'entraînement.
Pour appliquer des étiquettes aux éléments dans l'interface utilisateur d'AutoML Video, sélectionnez un ensemble de données sur la page où ils sont répertoriés afin d'afficher les détails correspondants. Le nom à afficher de l'ensemble de données sélectionné s'affiche dans la barre de titre. La page répertorie chaque élément de l'ensemble de données et l'étiquette correspondante. La barre de navigation de gauche récapitule le nombre d'éléments avec et sans étiquette. Elle vous permet également de filtrer la liste d'éléments par étiquette.
Pour attribuer des étiquettes à des vidéos qui n'en possèdent pas ou modifier les étiquettes existantes d'une vidéo, procédez comme suit :
- Sur la page de l'ensemble de données, cliquez sur la vidéo pour laquelle vous souhaitez ajouter ou modifier des étiquettes.
Sur la page de la vidéo, procédez comme suit :
- Cliquez sur Add Segment (Ajouter un segment).
- Faites glisser les flèches de chaque côté de la chronologie de la vidéo pour définir la région à laquelle ajouter les étiquettes. Par défaut, toute la durée de la vidéo est sélectionnée.
- Dans la liste des étiquettes, cliquez sur les étiquettes que vous souhaitez appliquer à la vidéo. Après avoir sélectionné l'étiquette, sa barre de couleur devient unie.
- Cliquez sur Save.
Si vous devez ajouter une étiquette à l'ensemble de données, cliquez sur les trois points à côté de la rubrique Filter labels (Filtrer les étiquettes), puis sur Add new label (Ajouter une étiquette) au-dessus de la liste des étiquettes existantes sur la page de l'ensemble de données.
Répertorier les ensembles de données
Un projet peut inclure de nombreux ensembles de données. Cette section explique comment récupérer la liste des ensembles de données disponibles pour un projet.
UI Web
Pour afficher la liste des ensembles de données disponibles à l'aide de l'interface utilisateur d'AutoML Video, accédez à la page Ensembles de données.Pour afficher les ensembles de données d'un autre projet, sélectionnez le projet dans la liste déroulante située dans l'angle supérieur droit de la barre de titre.
REST
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- project-number : numéro de votre projet.
- location-id : région cloud dans laquelle l'annotation doit avoir lieu. Les régions cloud compatibles sont les suivantes :
us-east1
,us-west1
,europe-west1
etasia-east1
. Si aucune région n'est spécifiée, une région est déterminée en fonction de l'emplacement du fichier vidéo.
Méthode HTTP et URL :
https://automl.googleapis.com/v1beta1/projects/project-number/locations/location-id/datasets
Pour envoyer votre requête, développez l'une des options suivantes :
Vous devriez recevoir une réponse JSON de ce type :
Java
Pour vous authentifier auprès d'AutoML Video, configurez les identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Pour vous authentifier auprès d'AutoML Video, configurez les identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour vous authentifier auprès d'AutoML Video, configurez les identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Supprimer un ensemble de données
Le code suivant montre comment supprimer un ensemble de données.
UI Web
-
Accédez à la page Ensembles de données dans l'interface utilisateur d'AutoML Video.
- Cliquez sur le menu à trois points à l'extrémité droite de la ligne à supprimer, puis sélectionnez Supprimer l'ensemble de données.
- Cliquez sur Supprimer dans la boîte de dialogue de confirmation.
REST
Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :
- dataset-name : nom complet de votre ensemble de données, issu de la réponse obtenue lorsque vous avez créé l'ensemble de données. Il a le format suivant :
projects/project-number/locations/location-id/datasets/dataset-id
- project-number : numéro de votre projet.
- location-id : région cloud dans laquelle l'annotation doit avoir lieu. Les régions cloud compatibles sont les suivantes :
us-east1
,us-west1
,europe-west1
etasia-east1
. Si aucune région n'est spécifiée, une région est déterminée en fonction de l'emplacement du fichier vidéo. - dataset-id : ID fourni lors de la création de l'ensemble de données.
Méthode HTTP et URL :
DELETE https://automl.googleapis.com/v1beta1/dataset-name
Pour envoyer votre requête, développez l'une des options suivantes :
Vous devriez recevoir une réponse JSON de ce type :
Java
Pour vous authentifier auprès d'AutoML Video, configurez les identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Node.js
Pour vous authentifier auprès d'AutoML Video, configurez les identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.
Python
Pour vous authentifier auprès d'AutoML Video, configurez les identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.