Volume Populator de Google Kubernetes Engine (GKE) puede ayudarte a automatizar y agilizar el proceso de precarga de datos de cubos de Cloud Storage en PersistentVolumeClaims (PVCs) de destino durante el aprovisionamiento dinámico.
Cómo funciona GKE Volume Populator
GKE Volume Populator aprovecha el concepto principal de Volume Populator de Kubernetes. En lugar de aprovisionar un volumen vacío, GKE Volume Populator permite que un PVC haga referencia a un recurso personalizado GCPDataSource
. Este recurso personalizado especifica el segmento de Cloud Storage de origen y las credenciales necesarias.
Cuando creas un PVC con un dataSourceRef
que apunta a un recurso GCPDataSource
, GKE Volume Populator inicia la transferencia de datos. Copia los datos del URI del segmento de Cloud Storage especificado en el volumen de almacenamiento persistente subyacente antes de que el volumen esté disponible para tus pods.
Este proceso reduce la necesidad de usar secuencias de comandos de transferencia de datos manuales o comandos de la CLI, y automatiza la transferencia de grandes conjuntos de datos a volúmenes persistentes. GKE Volume Populator admite transferencias de datos entre los siguientes tipos de origen y destino:
- Cloud Storage a Parallelstore
- Cloud Storage a Hyperdisk ML
GKE Volume Populator es un componente gestionado de GKE que está habilitado de forma predeterminada en los clústeres Autopilot y Standard. La interacción principal con GKE Volume Populator se realiza a través de las CLIs gcloud y kubectl.
Arquitectura
En el siguiente diagrama se muestra cómo fluyen los datos del almacenamiento de origen al de destino y cómo se crea el PersistentVolume del almacenamiento de destino mediante GKE Volume Populator.
- Crea un PVC que haga referencia a un recurso personalizado
GCPDataSource
. - GKE Volume Populator detecta el PVC e inicia una tarea de transferencia de datos.
- La tarea de transferencia se ejecuta en un grupo de nodos que ya existe o se crea uno nuevo si el aprovisionamiento automático de nodos está habilitado.
- La tarea de transferencia copia los datos del segmento de Cloud Storage especificado en el recurso
GCPDataSource
al volumen de almacenamiento de destino. - Una vez completada la transferencia, el PVC se vincula al volumen de almacenamiento de destino, lo que permite que el pod de carga de trabajo acceda a los datos.
Principales ventajas
GKE Volume Populator ofrece varias ventajas:
- Relleno de datos automatizado: rellena automáticamente los volúmenes con datos de Cloud Storage durante el aprovisionamiento, lo que ayuda a reducir la sobrecarga operativa.
- Portabilidad de datos fluida: mueve datos del almacenamiento de objetos a sistemas de archivos de alto rendimiento (Parallelstore) o de almacenamiento en bloque (Hyperdisk) para optimizar los precios o el rendimiento en función de las necesidades de tu carga de trabajo.
- Flujos de trabajo simplificados: reduce la necesidad de tener tareas de carga de datos independientes o de intervenir manualmente para preparar volúmenes persistentes.
- Integración con Gestión de Identidades y Accesos (IAM): usa la autenticación basada en IAM a través de Workload Identity Federation para GKE para garantizar la transferencia de datos segura con un control de acceso pormenorizado.
- Cargas de trabajo de IA y aprendizaje automático aceleradas: precarga rápidamente grandes conjuntos de datos, modelos y pesos directamente en el almacenamiento de alto rendimiento para acelerar las tareas de entrenamiento e inferencia.
Casos prácticos de GKE Volume Populator
Puedes usar GKE Volume Populator para cargar grandes conjuntos de datos de entrenamiento para IA o aprendizaje automático. Imagina que tienes un conjunto de datos de varios terabytes para entrenar un modelo de lenguaje extenso (LLM) almacenado en un segmento de Cloud Storage. Tu trabajo de entrenamiento se ejecuta en GKE y requiere un alto rendimiento de E/S. En lugar de copiar los datos manualmente, puedes usar GKE Volume Populator para aprovisionar automáticamente un volumen de Parallelstore o Hyperdisk ML y rellenarlo con el conjunto de datos de Cloud Storage cuando se cree la reclamación de volumen persistente. Este proceso automatizado ayuda a que tus pods de entrenamiento empiecen con un acceso inmediato y de alta velocidad a los datos.
Aquí tienes más ejemplos de dónde puedes usar GKE Volume Populator:
- Pre-almacenamiento en caché de pesos y recursos de modelos de IA o aprendizaje automático de Cloud Storage en volúmenes de Hyperdisk ML para acelerar los tiempos de carga de modelos en el servicio de inferencia.
- Migrar datos de Cloud Storage a volúmenes persistentes para aplicaciones con estado que requieran un acceso al disco eficiente.
Siguientes pasos
- Automatiza la transferencia de datos a Parallelstore mediante GKE Volume Populator.
- Automatiza la transferencia de datos a Hyperdisk ML mediante GKE Volume Populator.
- Solucionar problemas de transferencia de datos de Volume Populator de GKE