Parallelstore es un sistema de archivos distribuido de baja latencia y completamente administrado diseñado para satisfacer las demandas del entrenamiento de IA/AA y las cargas de trabajo de procesamiento de alto rendimiento (HPC) que necesitan una latencia extremadamente baja (menos de un milisegundo), semántica POSIX completa y una alta capacidad de procesamiento de operaciones de metadatos. Parallelstore se escala a velocidades de lectura de 1 TB/s y a millones de IOPS.
Para conectar un clúster de Google Kubernetes Engine (GKE) a una instancia de Parallelstore, usa el controlador de Container Storage Interface (CSI) de Parallelstore. El controlador de CSI de Parallelstore te permite usar la API de GKE para consumir instancias de Parallelstore como volúmenes para tus cargas de trabajo con estado (por ejemplo, pods y trabajos). Está optimizado para cargas de trabajo de entrenamiento de IA/AA, en particular aquellas que implican tamaños de archivo más pequeños y lecturas aleatorias.
GKE habilita el controlador de CSI de forma predeterminada cuando creas un clúster de GKE Autopilot nuevo. En los clústeres nuevos y existentes de GKE Standard, deberás habilitar el controlador CSI.
Beneficios
Puedes usar el controlador de CSI de Parallelstore para aprovechar el almacenamiento de alto rendimiento. Con el controlador CSI de Parallelstore, puedes acelerar tus cargas de trabajo de entrenamiento de IA/AA y computación de alto rendimiento, con acceso rápido y coherente a los datos compartidos para un procesamiento y análisis eficientes.
- Tienes acceso a sistemas de archivos en paralelo completamente administrados como almacenamiento a través de las APIs de Kubernetes.
- El controlador de CSI de Parallelstore de Google Kubernetes Engine admite los modos de acceso ReadWriteMany, ReadOnlyMany y ReadWriteOnce.
- Puedes usar el controlador de CSI de Parallelstore de Google Kubernetes Engine para aprovisionar de forma dinámica tus PersistentVolumes.
- Puedes acceder a instancias de Parallelstore existentes en cargas de trabajo de Kubernetes. También puedes crear instancias de Parallelstore de forma dinámica y usarlas en cargas de trabajo de Kubernetes con un StatefulSet o una implementación.
Limitaciones
- Persistencia de datos: Parallelstore es un sistema de archivos “scratch plus”. Se respalda con SSD local con codificación de borrado 2+1, y el tiempo medio hasta la pérdida de datos es de dos meses. Parallelstore no es un almacenamiento a largo plazo y, en su lugar, se debe considerar un sistema de archivos extremadamente rápido para cargas de trabajo específicas.
- Limitación por Pod: GKE admite el acceso solo a una instancia de Parallelstore por Pod.
- Transferencias de datos: La API de GKE no admite la transferencia de datos de Cloud Storage a Parallelstore. Para realizar la transferencia, usa la API de Parallelstore.
- Capacidad utilizable: Puedes configurar la capacidad de almacenamiento de 12,000 GiB a 100,000 GiB.
- Zonas compatibles: Parallelstore es compatible con estas zonas. Si la región de tu clúster difiere de la de tu instancia de Parallelstore, se producirá una disminución notable en el rendimiento de E/S.
- Limitaciones de VPC-SC para Parallelstore: Si usas tanto VPC compartida como Controles del servicio de VPC, debes tener el proyecto host que proporciona la red y el proyecto de servicio que contiene la instancia de Parallelstore dentro del mismo perímetro para que la instancia de Parallelstore funcione correctamente. Separar el proyecto host y el proyecto de servicio con un perímetro puede hacer que las instancias existentes dejen de estar disponibles y que no se creen instancias nuevas.
Requisitos
Para usar el controlador de CSI de Parallelstore, tus clústeres deben cumplir con los siguientes requisitos:
- Asegúrate de haber instalado la versión más reciente de Google Cloud CLI. La versión mínima admitida de gcloud CLI para esta función es 469.0.0 o posterior.
- Usa la versión 1.29 o posterior del clúster de Google Kubernetes Engine.
¿Qué sigue?
- Crea y usa un volumen respaldado por una instancia de Parallelstore en Google Kubernetes Engine.
- Accede a una instancia existente de Parallelstore desde Google Kubernetes Engine.