Entraîner un modèle de reconnaissance d'actions dans des vidéos

Cette page explique comment entraîner un modèle AutoML de reconnaissance d'actions à partir d'un ensemble de données vidéo à l'aide de la console Google Cloud ou de l'API Vertex AI.

Entraîner un modèle AutoML

Console Google Cloud

Dans Google Cloud Console, dans la section Vertex AI, accédez à la page Ensembles de données.

Accéder à la page Ensembles de données
Cliquez sur le nom de l'ensemble de données que vous souhaitez utiliser pour entraîner votre modèle afin d'ouvrir sa page d'informations.
Cliquez sur Entraîner un nouveau modèle.
Saisissez le nom à afficher pour votre nouveau modèle.
Si vous souhaitez définir manuellement la répartition des données d'entraînement, agrandissez Options avancées et sélectionnez une option de répartition des données. En savoir plus
Cliquez sur Continuer.
Sélectionnez la méthode d'entraînement de modèle.
- AutoML est un bon choix pour un large éventail de cas d'utilisation.
- Seq2seq+ est un bon choix pour les tests. L'algorithme est susceptible de converger plus rapidement qu'AutoML, car son architecture est plus simple et il utilise un espace de recherche plus petit. Nos tests montrent que Seq2Seq+ offre de bons résultats avec un petit budget-temps et des ensembles de données dont la taille est inférieure à 1 Go.
Cliquez sur Continuer.
Cliquez sur Démarrer l'entraînement.
L'entraînement de modèle peut prendre plusieurs heures, en fonction de la taille et de la complexité de vos données et du budget d'entraînement, le cas échéant. Vous pouvez fermer cet onglet et y revenir plus tard. Vous recevrez un e-mail une fois l'entraînement terminé.

Quelques minutes après le démarrage de l'entraînement, vous pouvez consulter l'estimation nœud-heure d'entraînement à partir des informations sur les propriétés du modèle. Si vous annulez l'entraînement, vous ne serez pas facturé pour le produit actuel.

API

REST

Avant d'utiliser les données de requête ci-dessous, effectuez les remplacements suivants :

PROJECT : l'ID de votre projet.
LOCATION : région d'emplacement de l'ensemble de données et de création du modèle. Exemple :us-central1
TRAINING_PIPELINE_DISPLAY_NAME : valeur obligatoire. Nom à afficher pour le TrainingPipeline.
DATASET_ID : ID de l'ensemble de données d'entraînement.
TRAINING_FRACTION, TEST_FRACTION : l'objet fractionSplit est facultatif, il sert à contrôler la répartition des données. Pour en savoir plus sur le contrôle de la répartition des données, consultez la page À propos de la répartition des données pour les modèles AutoML. Exemple :
- {"trainingFraction": "0.8","validationFraction": "0","testFraction": "0.2"}
MODEL_DISPLAY_NAME : nom à afficher du modèle entraîné.
MODEL_DESCRIPTION : description du modèle.
MODEL_LABELS : tout ensemble de paires clé/valeur pour organiser vos modèles. Exemple :
- "env" : "prod"
- "tier" : "backend"
EDGE_MODEL_TYPE :
- MOBILE_VERSATILE_1 : usage général
PROJECT_NUMBER : numéro de projet généré automatiquement pour votre projet.

Méthode HTTP et URL :

POST https://LOCATION-aiplatform.googleapis.com/beta1/projects/PROJECT/locations/LOCATION/trainingPipelines

Corps JSON de la requête :

{
  "displayName": "TRAINING_PIPELINE_DISPLAY_NAME",
  "inputDataConfig": {
    "datasetId": "DATASET_ID",
    "fractionSplit": {
      "trainingFraction": "TRAINING_FRACTION",
      "validationFraction": "0",
      "testFraction": "TEST_FRACTION"
    }
  },
  "modelToUpload": {
    "displayName": "MODEL_DISPLAY_NAME",
    "description": "MODEL_DESCRIPTION",
    "labels": {
      "KEY": "VALUE"
    }
  },
  "trainingTaskDefinition": "gs://google-cloud-aiplatform/schema/trainingjob/definition/automl_video_object_tracking_1.0.0.yaml",
  "trainingTaskInputs": {
    "modelType": ["EDGE_MODEL_TYPE"],
  }
}

Pour envoyer votre requête, choisissez l'une des options suivantes :

curl

Remarque : La commande suivante suppose que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login, ou en utilisant Cloud Shell, qui vous connecte automatiquement à la CLI gcloud. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/beta1/projects/PROJECT/locations/LOCATION/trainingPipelines"

PowerShell

Remarque : La commande suivante suppose que vous vous êtes connecté à la CLI gcloud avec votre compte utilisateur en exécutant la commande gcloud init ou gcloud auth login. Vous pouvez exécuter la commande gcloud auth list pour vérifier quel est le compte actuellement actif.

Enregistrez le corps de la requête dans un fichier nommé request.json, puis exécutez la commande suivante :

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/beta1/projects/PROJECT/locations/LOCATION/trainingPipelines" | Select-Object -Expand Content

La réponse contient des informations sur les spécifications, ainsi que sur TRAININGPIPELINE_ID.

Réponse

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/trainingPipelines/TRAININGPIPELINE_ID",
  "displayName": "TRAININGPIPELINE_DISPLAYNAME",
  "inputDataConfig": {
    "datasetId": "DATASET_ID",
    "fractionSplit": {
      "trainingFraction": 0.8,
      "validationFraction": 0,
      "testFraction": 0.2
    }
  },
  "trainingTaskDefinition": OBJECTIVE,
  "trainingTaskInputs": {
    "modelType": "EDGE_MODEL_TYPE",
  },
  "modelToUpload": {
    "displayName": "MODEL_DISPLAY_NAME",
    "labels": {
      "KEY1": "VALUE1",
      "KEY2": "VALUE2"
    }
  },
  "state": "PIPELINE_STATE_PENDING",
  "createTime": "2020-07-14T17:16:55.098953Z",
  "updateTime": "2020-07-14T17:16:55.098953Z"
}

Java

Avant d'essayer cet exemple, suivez les instructions de configuration pour Java décrites dans le guide de démarrage rapide de Vertex AI à l'aide des bibliothèques clientes. Pour en savoir plus, consultez la documentation de référence de l'API Vertex AI Java.

Pour vous authentifier auprès de Vertex AI, configurez le service Identifiants par défaut de l'application. Pour en savoir plus, consultez Configurer l'authentification pour un environnement de développement local.

import com.google.cloud.aiplatform.util.ValueConverter;
import com.google.cloud.aiplatform.v1.InputDataConfig;
import com.google.cloud.aiplatform.v1.LocationName;
import com.google.cloud.aiplatform.v1.Model;
import com.google.cloud.aiplatform.v1.PipelineServiceClient;
import com.google.cloud.aiplatform.v1.PipelineServiceSettings;
import com.google.cloud.aiplatform.v1.TrainingPipeline;
import com.google.cloud.aiplatform.v1.schema.trainingjob.definition.AutoMlVideoActionRecognitionInputs;
import com.google.cloud.aiplatform.v1.schema.trainingjob.definition.AutoMlVideoActionRecognitionInputs.ModelType;
import java.io.IOException;

public class CreateTrainingPipelineVideoActionRecognitionSample {

  public static void main(String[] args) throws IOException {
    // TODO(developer): Replace these variables before running the sample.
    String project = "PROJECT";
    String displayName = "DISPLAY_NAME";
    String datasetId = "DATASET_ID";
    String modelDisplayName = "MODEL_DISPLAY_NAME";
    createTrainingPipelineVideoActionRecognitionSample(
        project, displayName, datasetId, modelDisplayName);
  }

  static void createTrainingPipelineVideoActionRecognitionSample(
      String project, String displayName, String datasetId, String modelDisplayName)
      throws IOException {
    PipelineServiceSettings settings =
        PipelineServiceSettings.newBuilder()
            .setEndpoint("us-central1-aiplatform.googleapis.com:443")
            .build();
    String location = "us-central1";

    // Initialize client that will be used to send requests. This client only needs to be created
    // once, and can be reused for multiple requests. After completing all of your requests, call
    // the "close" method on the client to safely clean up any remaining background resources.
    try (PipelineServiceClient client = PipelineServiceClient.create(settings)) {
      AutoMlVideoActionRecognitionInputs trainingTaskInputs =
          AutoMlVideoActionRecognitionInputs.newBuilder().setModelType(ModelType.CLOUD).build();

      InputDataConfig inputDataConfig =
          InputDataConfig.newBuilder().setDatasetId(datasetId).build();
      Model modelToUpload = Model.newBuilder().setDisplayName(modelDisplayName).build();
      TrainingPipeline trainingPipeline =
          TrainingPipeline.newBuilder()
              .setDisplayName(displayName)
              .setTrainingTaskDefinition(
                  "gs://google-cloud-aiplatform/schema/trainingjob/definition/"
                      + "automl_video_action_recognition_1.0.0.yaml")
              .setTrainingTaskInputs(ValueConverter.toValue(trainingTaskInputs))
              .setInputDataConfig(inputDataConfig)
              .setModelToUpload(modelToUpload)
              .build();
      LocationName parent = LocationName.of(project, location);
      TrainingPipeline response = client.createTrainingPipeline(parent, trainingPipeline);
      System.out.format("response: %s\n", response);
      System.out.format("Name: %s\n", response.getName());
    }
  }
}

Python

Pour savoir comment installer ou mettre à jour le SDK Vertex AI pour Python, consultez la section Installer le SDK Vertex AI pour Python. Pour en savoir plus, consultez la documentation de référence de l'API Python.

from google.cloud import aiplatform
from google.cloud.aiplatform.gapic.schema import trainingjob


def create_training_pipeline_video_action_recognition_sample(
    project: str,
    display_name: str,
    dataset_id: str,
    model_display_name: str,
    model_type: str,
    location: str = "us-central1",
    api_endpoint: str = "us-central1-aiplatform.googleapis.com",
):
    # The AI Platform services require regional API endpoints.
    client_options = {"api_endpoint": api_endpoint}
    # Initialize client that will be used to create and send requests.
    # This client only needs to be created once, and can be reused for multiple requests.
    client = aiplatform.gapic.PipelineServiceClient(client_options=client_options)
    training_task_inputs = trainingjob.definition.AutoMlVideoActionRecognitionInputs(
        # modelType can be either 'CLOUD' or 'MOBILE_VERSATILE_1'
        model_type=model_type,
    ).to_value()

    training_pipeline = {
        "display_name": display_name,
        "training_task_definition": "gs://google-cloud-aiplatform/schema/trainingjob/definition/automl_video_action_recognition_1.0.0.yaml",
        "training_task_inputs": training_task_inputs,
        "input_data_config": {"dataset_id": dataset_id},
        "model_to_upload": {"display_name": model_display_name},
    }
    parent = f"projects/{project}/locations/{location}"
    response = client.create_training_pipeline(
        parent=parent, training_pipeline=training_pipeline
    )
    print("response:", response)

Contrôler la répartition des données à l'aide de REST

Vous pouvez contrôler la manière dont vos données d'entraînement sont réparties entre les ensembles d'entraînement, de validation et de test. Lorsque vous utilisez l'API Vertex AI, déterminez la répartition des données à l'aide de l'objet Split. L'objet Split peut être inclus dans l'objet InputConfig sous la forme de plusieurs types d'objets, chacun offrant une manière différente de répartir les données d'entraînement. Vous ne pouvez sélectionner qu'une seule méthode.

FractionSplit :
- TRAINING_FRACTION : fraction des données d'entraînement à utiliser pour l'ensemble d'entraînement.
- VALIDATION_FRACTION : fraction des données d'entraînement à utiliser pour l'ensemble de validation. Non utilisé pour les données vidéo.
- TEST_FRACTION : fraction des données d'entraînement à utiliser pour l'ensemble de test.
Si l'une des fractions est spécifiée, elles doivent toutes être spécifiées. La somme des fractions doit être égale à 1,0. Les valeurs par défaut des fractions diffèrent selon le type de données. En savoir plus
```
"fractionSplit": {
  "trainingFraction": TRAINING_FRACTION,
  "validationFraction": VALIDATION_FRACTION,
  "testFraction": TEST_FRACTION
},
```
FilterSplit :

TRAINING_FILTER : les éléments de données correspondant à ce filtre sont utilisés pour l'ensemble d'entraînement.
VALIDATION_FILTER : les éléments de données correspondant à ce filtre sont utilisés pour l'ensemble de validation. La valeur doit être "-" pour les données vidéo.
TEST_FILTER : les éléments de données correspondant à ce filtre sont utilisés pour l'ensemble de test.

Ces filtres peuvent être utilisés avec l'étiquette ml_use ou avec les étiquettes que vous appliquez à vos données. Découvrez comment filtrer vos données à l'aide de l'étiquette ml-use et d'autres étiquettes.

L'exemple suivant montre comment utiliser l'objet filterSplit avec l'étiquette ml_use, avec l'ensemble de validation inclus :

"filterSplit": {
"trainingFilter": "labels.aiplatform.googleapis.com/ml_use=training",
"validationFilter": "labels.aiplatform.googleapis.com/ml_use=validation",
"testFilter": "labels.aiplatform.googleapis.com/ml_use=test"
}

Créer un ensemble de données

Évaluer le modèle