Opciones de almacenamiento para los datos de Cloud TPU

En este documento, se describen las opciones de almacenamiento de datos que pueden usarse cuando se entrenan modelos en Cloud TPU.

Introducción

Cloud TPU requiere el almacenamiento de datos para lo siguiente:

  • Descarga y procesamiento previo de conjuntos de datos
  • Procesamiento de la canalización de entrada del host
  • entrada de entrenamiento de modelos
  • salida de entrenamiento de modelos

Existen cinco opciones de almacenamiento para los datos de la aplicación de Cloud TPU y conjuntos de datos de entrenamiento:

Para obtener detalles sobre el costo y el rendimiento del almacenamiento, consulta Opciones de almacenamiento.

El disco de arranque para una VM de TPU

De forma predeterminada, cada VM de Cloud TPU tiene un disco persistente de arranque único de 100 GB que contiene el sistema operativo. El disco de inicio también se puede usar para almacenar conjuntos de datos descargados para el procesamiento previo y los datos de entrada y salida del modelo, siempre que la cantidad total no supere el espacio disponible en el disco de inicio.

Si tu aplicación de entrenamiento requiere espacio de almacenamiento adicional más allá del disco de arranque predeterminado, puedes agregar uno o más discos persistentes a tu instancia de VM o VM de TPU. Existen distintos procedimientos para agregar un disco persistente a un VM de Compute Engine o a una VM de TPU.

Un disco persistente conectado a una VM de TPU

Los discos persistentes son dispositivos de almacenamiento de red duraderos a los que tus instancias de VM pueden acceder al igual que discos físicos de una computadora de escritorio o un servidor. Los datos de cada disco persistente se distribuyen en varios discos físicos. Compute Engine administra los discos físicos y la distribución de datos para garantizar la redundancia y optimizar el rendimiento.

Los discos persistentes se crean de forma independiente de tu máquina virtual (VM). para que puedas conservar tus datos incluso después de borrar las instancias de VM. El rendimiento del disco persistente escala automáticamente con el tamaño, por lo que puedes cambiar el tamaño de tus discos persistentes existentes o agregar más discos persistentes a una instancia a fin de cumplir con tus requisitos de rendimiento y espacio de almacenamiento.

Los discos persistentes tienen redundancia incorporada para proteger tus datos contra fallas del equipo y garantizar la disponibilidad de los datos a través de eventos de mantenimiento del centro de datos. Las sumas de comprobación se calculan para todas las operaciones de disco persistente, de modo que podamos asegurarnos de que lo que lees es lo que escribiste.

Además, puedes crear instantáneas de discos persistentes para obtener protección contra la pérdida de datos debido a un error del usuario. Las instantáneas son incrementales y crearlas solo te llevará unos minutos, incluso si tus discos de instantáneas se encuentran adjuntos a instancias en ejecución.

Para obtener más información sobre el uso de discos persistentes con VMs de TPU, consulta Agrega un disco persistente a una VM de TPU.

Buckets de Cloud Storage

Los buckets de Cloud Storage son la opción de almacenamiento más flexible, escalable y duradera para tus instancias de VM. Si Si tu trabajo de entrenamiento no requiere la menor latencia de los discos persistentes, puede almacenar tu conjunto de datos en un bucket de Cloud Storage.

El rendimiento de los buckets de Cloud Storage depende de la clase de almacenamiento que selecciones y la ubicación del bucket en relación con tu instancia.

Si creas un bucket de Cloud Storage en la misma zona que tu La VM de TPU proporciona un rendimiento comparable en discos persistentes, pero con mayor latencia y menor capacidad de procesamiento del usuario.

Todos los buckets de Cloud Storage tienen redundancia incorporada para proteger tus datos contra fallas del equipo y garantizar la disponibilidad de datos a través de eventos de mantenimiento del centro de datos. Las sumas de verificación se calculan en todas las operaciones de Cloud Storage a fin de garantizar que lo que lees es lo que escribiste.

A diferencia de los discos persistentes, los buckets de Cloud Storage no están restringidos a la zona en que se encuentra tu instancia. Además, puedes leer y escribir datos en un bucket desde varias instancias de forma simultánea. Por ejemplo, puedes configurar instancias en varias zonas para leer y escribir datos en el mismo bucket, en lugar de replicar los datos en discos persistentes en varias zonas.

Cloud Storage FUSE

Cloud Storage FUSE te permite activar y acceder a buckets de Cloud Storage como sistemas de archivos locales. Esto permite que las aplicaciones lean y escriban objetos en tu bucket con la semántica del sistema de archivos estándar.

Consulta la documentación de FUSE de Cloud Storage para obtener más detalles. sobre cómo funciona Cloud Storage FUSE y una descripción de cómo Cloud Storage Las operaciones de FUSE se asignan a operaciones de Cloud Storage. Puedes encontrar información adicional sobre cómo usar Cloud Storage FUSE, como instalar la CLI de Cloud Storage FUSE y activar buckets en GitHub.

Sistema de archivos compartidos de Filestore

Los archivos compartidos de Filestore son un almacenamiento conectado a la red (NAS) administrado para Compute Engine. Filestore ofrece compatibilidad con aplicaciones empresariales existentes y admite cualquier cliente compatible con NFSv3.

Filestore ofrece latencia baja para las operaciones con archivos. En el caso de las cargas de trabajo sensibles a la latencia, Filestore admite una capacidad de hasta 100 TB y una capacidad de procesamiento de 25 GB por segundo y 720,000 IOPS, con una variabilidad mínima del rendimiento.

Con Filestore, puedes activar archivos compartidos en VMs de TPU.

¿Qué sigue?