Opciones de almacenamiento para los datos de Cloud TPU

En este documento, se describen las opciones de almacenamiento de datos que pueden usarse cuando se entrenan modelos en Cloud TPU.

Introducción

Cloud TPU requiere el almacenamiento de datos para lo siguiente:

  • descarga y procesamiento previo del conjunto de datos
  • procesamiento de canalización de entrada del host
  • entrada de entrenamiento de modelos
  • salida de entrenamiento de modelos

Existen cinco opciones de almacenamiento para los datos de la aplicación de Cloud TPU y conjuntos de datos de entrenamiento:

Para obtener detalles sobre el costo y el rendimiento de almacenamiento consulta Opciones de almacenamiento.

El disco de arranque para una VM de TPU

De forma predeterminada, cada VM de Cloud TPU tiene un disco persistente de inicio único de 100 GB. que contiene el sistema operativo. El disco de arranque también se puede usar en conjuntos de datos descargados para el procesamiento previo y los datos de entrada y salida del modelo, siempre no supere el espacio disponible en el disco de arranque.

Si tu aplicación de entrenamiento requiere espacio de almacenamiento adicional más allá del inicio disco predeterminado, puedes agregar uno o más discos persistentes a tu VM o instancia. Existen distintos procedimientos para agregar un disco persistente a un VM de Compute Engine o a una VM de TPU.

Un disco persistente conectado a una VM de TPU

Los discos persistentes son redes duraderas. de almacenamiento a los que pueden acceder tus instancias de VM, como discos físicos una computadora de escritorio o un servidor. Los datos de cada disco persistente se distribuyen en varios discos físicos. Compute Engine administra los discos físicos y la distribución de los datos para garantizar la redundancia y un rendimiento óptimo.

Los discos persistentes se crean de forma independiente de tu máquina virtual (VM). para que puedas conservar tus datos incluso después de borrar las instancias de VM. El rendimiento del disco persistente escala automáticamente con el tamaño, por lo que puedes cambiar el tamaño de tus discos persistentes existentes o agregar más discos persistentes a una instancia a fin de cumplir con tus requisitos de rendimiento y espacio de almacenamiento.

Los discos persistentes tienen redundancia incorporada para proteger tus datos contra equipos. y garantizar la disponibilidad de los datos mediante eventos de mantenimiento del centro de datos. Las sumas de comprobación se calculan para todas las operaciones de disco persistente, de modo que podamos asegurarnos de que lo que lees es lo que escribiste.

Además, puedes crear instantáneas. de discos persistentes para protegerlos contra la pérdida de datos debido a un error del usuario. Instantáneas son incrementales y se crean en solo unos minutos, aunque se conectan a instancias en ejecución.

Para obtener más información sobre el uso de discos persistentes con VMs de TPU, consulta Agrega un disco persistente a una VM de TPU.

Buckets de Cloud Storage

Los buckets de Cloud Storage son la opción de almacenamiento más flexible, escalable y duradera para tus instancias de VM. Si Si tu trabajo de entrenamiento no requiere la menor latencia de los discos persistentes, puede almacenar tu conjunto de datos en un bucket de Cloud Storage.

El rendimiento de los buckets de Cloud Storage depende de la clase de almacenamiento. que selecciones y la ubicación del bucket en relación con tu instancia.

Si creas un bucket de Cloud Storage en la misma zona que tu La VM de TPU proporciona un rendimiento comparable en discos persistentes, pero con mayor latencia y capacidad de procesamiento menos coherente del usuario.

Todos los buckets de Cloud Storage tienen redundancia incorporada para proteger tu datos contra fallas del equipo y garantizar la disponibilidad de datos a través de los datos de mantenimiento del centro de datos. Las sumas de verificación se calculan en todas las operaciones de Cloud Storage a fin de garantizar que lo que lees es lo que escribiste.

A diferencia de los discos persistentes, los buckets de Cloud Storage no están restringidos a la zona en la que se encuentra la instancia. Además, puedes leer y escribir datos en un bucket desde varias instancias de forma simultánea. Por ejemplo, puedes configurar instancias en varias zonas para leer y escribir datos en el mismo bucket, en lugar de replicar los datos en discos persistentes en varias zonas.

Cloud Storage FUSE

Cloud Storage FUSE te permite activar y acceder a buckets de Cloud Storage como sistemas de archivos locales. Esto permite que las aplicaciones lean y escriban objetos en tu bucket con la semántica estándar del sistema de archivos.

Consulta la documentación de FUSE de Cloud Storage para obtener más detalles. sobre cómo funciona Cloud Storage FUSE y una descripción de cómo Cloud Storage Las operaciones de FUSE se asignan a operaciones de Cloud Storage. Puedes encontrar información sobre cómo usar Cloud Storage FUSE, como cómo instalar el CLI de Cloud Storage FUSE y activar buckets en GitHub

Archivos compartidos de Filestore

Los archivos compartidos de Filestore son un almacenamiento conectado a la red (NAS) administrado para Compute Engine. Filestore ofrece compatibilidad con las aplicaciones empresariales existentes y admite cualquier Cliente compatible con NFSv3.

Filestore ofrece latencia baja para archivos las operaciones. Para las cargas de trabajo que son sensibles a la latencia, Filestore admite con una capacidad de hasta 100 TB y una de 25 GB por segundo y 720,000 IOPS, con y mínima variabilidad en el rendimiento.

Con Filestore, puedes activar archivos compartidos en VMs de TPU.

¿Qué sigue?