Télécharger, prétraiter et importer l'ensemble de données COCO

COCO est un ensemble de données de détection d'objets, de segmentation et de sous-titrage à grande échelle. Les modèles de machine learning qui utilisent l'ensemble de données COCO sont les suivants :

  • Mask-RCNN
  • Retinanet
  • ShapeMask

Avant de pouvoir entraîner un modèle, vous devez préparer les données d'entraînement. Étant donné que les frais Cloud TPU sont facturés dès que le TPU est configuré, il est recommandé de configurer la VM Compute Engine et de préparer l'ensemble de données, avant de configurer Cloud TPU.

Cet article explique comment préparer l'ensemble de données COCO pour les modèles exécutés sur Cloud TPU. Vous ne pouvez suivre cette procédure qu'après avoir créé une VM Compute Engine. Le script utilisé pour préparer les données, download_and_preprocess_coco.sh, est installé sur la VM et doit être exécuté sur celle-ci.

Après avoir préparé les données en exécutant le script download_and_preprocess_coco.sh, vous pouvez faire intervenir la ressource Cloud TPU et exécuter l'entraînement.

Préparer l'ensemble de données COCO

L'ensemble de données COCO sera stocké sur Cloud Storage. Par conséquent, définissez une variable de bucket de stockage spécifiant le nom du bucket que vous avez créé :

(vm)$ export STORAGE_BUCKET=gs://bucket-name
(vm)$ export DATA_DIR=${STORAGE_BUCKET}/coco

Exécutez le script download_and_preprocess_coco.sh pour convertir l'ensemble de données COCO en fichiers TFRecord (*.tfrecord), ce qui correspond au format attendu par l'application d'entraînement.

(vm)$ sudo bash /usr/share/tpu/tools/datasets/download_and_preprocess_coco.sh ./data/dir/coco

Cela installe les bibliothèques requises et exécute le script de prétraitement. Il génère un certain nombre de fichiers *.tfrecord dans votre répertoire de données local. L'exécution du script de téléchargement et de conversion COCO prend environ une heure.

Copier les données dans votre bucket Cloud Storage

Après avoir converti les données en TFRecord, copiez-les depuis le stockage local vers votre bucket Cloud Storage à l'aide de la commande gsutil. Vous devez également copier les fichiers d'annotation. Ces fichiers vous aident à valider les performances du modèle.

(vm)$ gsutil -m cp ./data/dir/coco/*.tfrecord ${DATA_DIR}
(vm)$ gsutil cp ./data/dir/coco/raw-data/annotations/*.json ${DATA_DIR}