Como fazer o download, o pré-processamento e o upload do conjunto de dados COCO

Antes de treinar um modelo, é necessário preparar os dados de treinamento para o uso da TPU.

Neste tópico, descrevemos como preparar o conjunto de dados COCO para modelos no Cloud TPU.

O COCO é um conjunto de dados de detecção, segmentação e legendagem de objetos em grande escala. Nesta etapa, você converte esse conjunto de dados em um conjunto de TFRecords (*.tfrecord) que o aplicativo de treinamento pode usar.

Para preparar o conjunto de dados COCO, inicie uma VM e execute o script de configuração do COCO. Não é preciso configurar o Cloud TPU antes de preparar o conjunto de dados. Como as cobranças do Cloud TPU começam na configuração, a prática recomendada é configurar a VM do Compute Engine, preparar o conjunto de dados e depois configurar o Cloud TPU.

Use o procedimento de configuração do TPU para configurar o Cloud TPU depois de preparar o conjunto de dados.

Os modelos de aprendizado de máquina que usam o conjunto de dados COCO incluem:

  • Máscara RCNN
  • RetinaNet

Preparar o conjunto de dados

O conjunto de dados COCO será armazenado no Cloud Storage. Se você não definiu anteriormente a variável de intervalo de armazenamento, faça isso agora:

(vm)$ export STORAGE_BUCKET=gs://your-bucket-name

Execute o script download_and_preprocess_coco.sh para converter o conjunto de dados COCO em um conjunto de TFRecords (*.tfrecord) esperado pelo aplicativo de treinamento.

(vm)$ cd /usr/share/tpu/tools/datasets
(vm)$ sudo bash /usr/share/tpu/tools/datasets/download_and_preprocess_coco.sh ./data/dir/coco

Isso instala as bibliotecas necessárias e executa o script de pré-processamento. A saída são alguns arquivos *.tfrecord no diretório de dados. O script de download e conversão do COCO leva aproximadamente 1 hora para ser concluído.

Copiar os dados para o intervalo do Cloud Storage

Depois de converter os dados para TFRecords, use o comando gsutil para copiá-los do armazenamento local para o intervalo do Cloud Storage. Também é preciso copiar os arquivos de anotação. Eles ajudam a validar o desempenho do modelo.

(vm)$ gsutil -m cp ./data/dir/coco/*.tfrecord ${STORAGE_BUCKET}/coco
(vm)$ gsutil cp ./data/dir/coco/raw-data/annotations/*.json ${STORAGE_BUCKET}/coco
Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Precisa de ajuda? Acesse nossa página de suporte.