Esta página se ha traducido con Cloud Translation API.

Acerca de GKE Volume Populator

Autopilot Standard

El Volume Populator de Google Kubernetes Engine (GKE) puede ayudarte a automatizar y agilizar el proceso de precarga de datos de cubos de Cloud Storage en PersistentVolumeClaims (PVCs) de destino durante el aprovisionamiento dinámico.

Cómo funciona GKE Volume Populator

GKE Volume Populator aprovecha el concepto principal de Volume Populator de Kubernetes. En lugar de aprovisionar un volumen vacío, GKE Volume Populator permite que un PVC haga referencia a un recurso personalizado GCPDataSource. Este recurso personalizado especifica el segmento de Cloud Storage de origen y las credenciales necesarias.

Cuando creas un PVC con un dataSourceRef que apunta a un recurso GCPDataSource, GKE Volume Populator inicia la transferencia de datos. Copia los datos del URI del segmento de Cloud Storage especificado en el volumen de almacenamiento persistente subyacente antes de que el volumen esté disponible para tus pods.

Este proceso reduce la necesidad de usar secuencias de comandos de transferencia de datos manuales o comandos de la CLI, y automatiza la transferencia de grandes conjuntos de datos a volúmenes persistentes. GKE Volume Populator admite transferencias de datos entre los siguientes tipos de origen y destino:

Cloud Storage a Parallelstore
Cloud Storage a Hyperdisk ML

GKE Volume Populator es un componente gestionado de GKE que está habilitado de forma predeterminada en los clústeres Autopilot y Standard. La interacción principal con GKE Volume Populator se realiza a través de las CLIs gcloud y kubectl.

Arquitectura

En el siguiente diagrama se muestra cómo fluyen los datos del almacenamiento de origen al de destino y cómo se crea el PersistentVolume del almacenamiento de destino mediante GKE Volume Populator.

Crea un PVC que haga referencia a un recurso personalizado GCPDataSource.
GKE Volume Populator detecta el PVC e inicia una tarea de transferencia de datos.
La tarea de transferencia se ejecuta en un grupo de nodos que ya existe o se crea uno nuevo si el aprovisionamiento automático de nodos está habilitado.
La tarea de transferencia copia los datos del segmento de Cloud Storage especificado en el recurso GCPDataSource al volumen de almacenamiento de destino.
Una vez completada la transferencia, el PVC se vincula al volumen de almacenamiento de destino, lo que permite que el pod de carga de trabajo acceda a los datos.

Transferencia de datos desde el almacenamiento de datos de origen y creación de un volumen persistente para el almacenamiento de destino mediante GKE Volume Populator

Principales ventajas

GKE Volume Populator ofrece varias ventajas:

Relleno de datos automatizado: rellena automáticamente los volúmenes con datos de Cloud Storage durante el aprovisionamiento, lo que ayuda a reducir la sobrecarga operativa.
Portabilidad de datos fluida: mueve datos del almacenamiento de objetos a sistemas de almacenamiento de archivos de alto rendimiento (Parallelstore) o de almacenamiento en bloques (Hyperdisk) para optimizar los precios o el rendimiento en función de las necesidades de tu carga de trabajo.
Flujos de trabajo simplificados: reduce la necesidad de usar tareas de carga de datos independientes o de intervenir manualmente para preparar volúmenes persistentes.
Integración con Gestión de Identidades y Accesos (IAM): usa la autenticación basada en IAM a través de Workload Identity Federation para GKE para garantizar la transferencia de datos segura con un control de acceso pormenorizado.
Cargas de trabajo de IA y aprendizaje automático aceleradas: precarga rápidamente grandes conjuntos de datos, modelos y pesos directamente en el almacenamiento de alto rendimiento para acelerar las tareas de entrenamiento e inferencia.

Casos prácticos de GKE Volume Populator

Puedes usar GKE Volume Populator para cargar grandes conjuntos de datos de entrenamiento para IA o aprendizaje automático. Supongamos que tienes un conjunto de datos de varios terabytes para entrenar un modelo de lenguaje extenso (LLM) almacenado en un segmento de Cloud Storage. Tu trabajo de entrenamiento se ejecuta en GKE y requiere un alto rendimiento de E/S. En lugar de copiar los datos manualmente, puedes usar GKE Volume Populator para aprovisionar automáticamente un volumen de Parallelstore o Hyperdisk ML y rellenarlo con el conjunto de datos de Cloud Storage cuando se cree la reclamación de volumen persistente. Este proceso automatizado ayuda a que tus pods de entrenamiento empiecen con un acceso inmediato y de alta velocidad a los datos.

Aquí tienes más ejemplos de dónde puedes usar GKE Volume Populator:

Pre-almacenamiento en caché de pesos y recursos de modelos de IA o aprendizaje automático de Cloud Storage en volúmenes de Hyperdisk ML para acelerar los tiempos de carga de modelos en el servicio de inferencia.
Migrar datos de Cloud Storage a volúmenes persistentes para aplicaciones con estado que requieran un acceso al disco eficiente.

Acerca de GKE Volume Populator

Cómo funciona GKE Volume Populator

Arquitectura

Principales ventajas

Casos prácticos de GKE Volume Populator

Siguientes pasos