Descarga, procesamiento previo y carga del conjunto de datos COCO

COCO es un conjunto de datos de subtitulado, segmentación y detección a gran escala. Estos son algunos de los modelos de aprendizaje automático que usan el conjunto de datos de COCO:

  • Mask-RCNN
  • Retinanet
  • ShapeMask

Antes de entrenar un modelo en una Cloud TPU, debes preparar los datos de entrenamiento. Dado que los cargos de Cloud TPU comienzan cuando se configura la TPU, se recomienda configurar la VM de Compute Engine y preparar el conjunto de datos antes de configurar Cloud TPU.

En este tema, se describe cómo preparar el conjunto de datos COCO para los modelos que se ejecutan en Cloud TPU. El conjunto de datos de COCO solo se puede preparar después de crear una VM de Compute Engine. La secuencia de comandos que se usa para preparar los datos, download_and_preprocess_coco.sh, se instala en la VM y debe ejecutarse en la VM.

Después de preparar los datos mediante la ejecución de la secuencia de comandos download_and_preprocess_coco.sh, puedes poner en marcha la Cloud TPU y ejecutar el entrenamiento.

Prepara el conjunto de datos COCO

El conjunto de datos COCO se almacenará en tu Cloud Storage, así que establece una variable de depósito de almacenamiento que especifique el nombre del depósito que creaste:

(vm)$ export STORAGE_BUCKET=gs://bucket-name
(vm)$ export DATA_DIR=${STORAGE_BUCKET}/coco

Ejecuta la secuencia de comandos download_and_preprocess_coco.sh para convertir el conjunto de datos COCO en un conjunto de TFRecords (*.tfrecord), que son compatibles con la aplicación de entrenamiento.

(vm)$ sudo bash /usr/share/tpu/tools/datasets/download_and_preprocess_coco.sh ./data/dir/coco

Esto instala las bibliotecas necesarias y ejecuta la secuencia de comandos de procesamiento previo. Como resultado, se muestra una serie de archivos *.tfrecord en tu directorio de datos local. La secuencia de comandos de conversión y descarga de COCO tarda alrededor de 1 hora en completarse.

Copia los datos en tu depósito de Cloud Storage

Después de convertir los datos en TFRecords, cópialos desde el almacenamiento local a tu depósito de Cloud Storage con el comando gsutil. También debes copiar los archivos de anotaciones. Estos archivos ayudan a validar el rendimiento del modelo.

(vm)$ gsutil -m cp ./data/dir/coco/*.tfrecord ${DATA_DIR}
(vm)$ gsutil cp ./data/dir/coco/raw-data/annotations/*.json ${DATA_DIR}