Sistemas de archivos en paralelo para cargas de trabajo de HPC

Last reviewed 2025-05-19 UTC

En este documento se presentan las opciones de almacenamiento de Google Cloud para cargas de trabajo de computación de alto rendimiento (HPC) y se explica cuándo usar sistemas de archivos paralelos para cargas de trabajo de HPC. En un sistema de archivos paralelo, varios clientes usan rutas de E/S paralelas para acceder a datos compartidos que se almacenan en varios nodos de almacenamiento en red.

La información de este documento está dirigida a arquitectos y administradores que diseñan, aprovisionan y gestionan el almacenamiento de cargas de trabajo de HPC que requieren muchos datos. En este documento se presupone que tienes conocimientos conceptuales sobre sistemas de archivos de red (NFS), sistemas de archivos paralelos, POSIX y los requisitos de almacenamiento de las aplicaciones de HPC.

¿Qué es la HPC?

Los sistemas de HPC resuelven grandes problemas computacionales rápidamente agregando varios recursos de computación. La computación de alto rendimiento impulsa la investigación y la innovación en sectores como el sanitario, las ciencias biológicas, los medios de comunicación, el entretenimiento, los servicios financieros y la energía. Los investigadores, científicos y analistas usan sistemas de HPC para llevar a cabo experimentos, ejecutar simulaciones y evaluar prototipos. Las cargas de trabajo de HPC, como el procesamiento sísmico, la secuenciación genómica, el renderizado de contenido multimedia y la modelización climática, generan y acceden a grandes volúmenes de datos con tasas de datos cada vez mayores y latencias cada vez menores. El almacenamiento de alto rendimiento y la gestión de datos son elementos fundamentales de la infraestructura de HPC.

Opciones de almacenamiento para cargas de trabajo de HPC en Google Cloud

La configuración y la operación de la infraestructura de HPC on-premise es costosa y requiere un mantenimiento continuo. Además, la infraestructura on-premise no suele poder escalarse rápidamente para adaptarse a los cambios en la demanda. Planificar, adquirir, desplegar y retirar el hardware on-premise lleva mucho tiempo, lo que retrasa la incorporación de recursos de HPC o la utilización de la capacidad. En la nube, puedes aprovisionar de forma eficiente una infraestructura de HPC que utiliza la tecnología más reciente y puedes escalar tu capacidad bajo demanda.

Google Cloud y nuestros partners tecnológicos ofrecen opciones de almacenamiento rentables, flexibles y escalables para desplegar infraestructura de HPC en la nube y para ampliar tu infraestructura de HPC local. Los científicos, investigadores y analistas pueden acceder rápidamente a más capacidad de HPC para sus proyectos cuando la necesiten.

Para desplegar una carga de trabajo de HPC en Google Cloud, puedes elegir entre los siguientes servicios y productos de almacenamiento, en función de los requisitos de tu carga de trabajo:

Tipo de carga de trabajo Servicios y productos de almacenamiento recomendados
Cargas de trabajo que necesitan acceso a datos con baja latencia, pero que no requieren E/S extremas a conjuntos de datos compartidos y que tienen un uso compartido de datos limitado entre clientes. Usar almacenamiento NFS. Elige una de las siguientes opciones:
Cargas de trabajo que generan E/S complejas, interdependientes y a gran escala, como aplicaciones de HPC de alto acoplamiento que usan la interfaz de transferencia de mensajes (MPI) para una comunicación fiable entre procesos. Utiliza un sistema de archivos paralelo. Elige una de las siguientes opciones:
Para obtener más información sobre los requisitos de las cargas de trabajo que pueden admitir los sistemas de archivos paralelos, consulta Cuándo utilizar sistemas de archivos paralelos.

Cuándo utilizar sistemas de archivos paralelos

En un sistema de archivos en paralelo, varios clientes almacenan y acceden a datos compartidos en varios nodos de almacenamiento conectados en red mediante rutas de E/en paralelo. Los sistemas de archivos paralelos son ideales para cargas de trabajo de HPC estrechamente acopladas, como las cargas de trabajo de inteligencia artificial (IA) y de analíticas que usan aplicaciones SAS. Te recomendamos que uses un sistema de archivos en paralelo como Lustre gestionado para cargas de trabajo de HPC sensibles a la latencia que cumplan alguno de los siguientes requisitos:

  • Procesamiento de datos estrechamente acoplado: las cargas de trabajo de HPC, como la modelización meteorológica y la exploración sísmica, necesitan procesar datos repetidamente mediante muchas tareas interdependientes que se ejecutan simultáneamente en varios servidores. Estos procesos suelen usar MPI para intercambiar datos a intervalos regulares y usan puntos de control para recuperarse rápidamente de los errores. Los sistemas de archivos paralelos permiten que los clientes interdependientes almacenen y accedan a grandes volúmenes de datos compartidos simultáneamente a través de una red de baja latencia.
  • Compatibilidad con la API de E/S POSIX y con la semántica: los sistemas de archivos paralelos, como Managed Lustre, son ideales para cargas de trabajo que necesitan tanto la API POSIX como la semántica. La API de un sistema de archivos y su semántica son capacidades independientes. Por ejemplo, NFS admite la API POSIX, que es la forma en que las aplicaciones leen y escriben datos mediante funciones como open(), read() y write(). Sin embargo, la forma en que NFS coordina el acceso a los datos entre diferentes clientes no es la misma que la semántica POSIX para coordinar el acceso a los datos entre diferentes subprocesos de una máquina. Por ejemplo, NFS no admite la coherencia de la caché de lectura después de escritura de POSIX entre clientes. Se basa en una coherencia débil en NFSv3 y en la coherencia de cierre a apertura en NFSv4.
  • Capacidad de petabytes: los sistemas de archivos en paralelo se pueden escalar a varios petabytes de capacidad en un único espacio de nombres del sistema de archivos. Los volúmenes de NetApp admiten hasta 1 PB, y Filestore regional y zonal admiten hasta 100 TiB por sistema de archivos. Cloud Storage ofrece una capacidad fiable y de bajo coste que se escala automáticamente, pero puede que no cumpla los requisitos de semántica de uso compartido de datos y de baja latencia de las cargas de trabajo de HPC.
  • Baja latencia y alto ancho de banda: en el caso de las cargas de trabajo de HPC que necesitan acceso de alta velocidad a archivos muy grandes o a millones de archivos pequeños, los sistemas de archivos paralelos pueden superar el rendimiento del almacenamiento de objetos y de NFS. La latencia inferior a un milisegundo que proporcionan los sistemas de archivos paralelos es significativamente inferior a la del almacenamiento de objetos, lo que puede afectar al número máximo de IOPS. Además, el ancho de banda máximo que admiten los sistemas de archivos paralelos puede ser órdenes de magnitud superior al de los sistemas basados en NFS, que pueden saturar la NIC de una VM.
  • Escalado extremo de clientes: el almacenamiento de NFS puede admitir miles de clientes. Los sistemas de archivos paralelos se pueden escalar para admitir el acceso simultáneo a datos compartidos de más de 10.000 clientes y pueden proporcionar un alto rendimiento independientemente del número de clientes.

Ejemplos de aplicaciones de HPC con alto acoplamiento

En esta sección se describen ejemplos de aplicaciones de HPC con alto acoplamiento que necesitan el almacenamiento de baja latencia y alto rendimiento que proporcionan los sistemas de archivos paralelos.

Modelización molecular basada en IA

La investigación farmacéutica es un proceso caro y que requiere muchos datos. Las organizaciones de investigación farmacéutica modernas dependen de la IA para reducir los costes de investigación y desarrollo, ampliar las operaciones de forma eficiente y acelerar la investigación científica. Por ejemplo, los investigadores usan aplicaciones basadas en IA para simular las interacciones entre las moléculas de un fármaco y predecir el efecto de los cambios en los compuestos del fármaco. Estas aplicaciones se ejecutan en potentes procesadores de GPU paralelos que cargan, organizan y analizan una cantidad extrema de datos para completar simulaciones rápidamente. Los sistemas de archivos paralelos proporcionan las IOPS de almacenamiento y el rendimiento necesarios para maximizar el rendimiento de las aplicaciones de IA.

Análisis del riesgo crediticio con aplicaciones de SAS

Las entidades de servicios financieros, como las entidades de crédito hipotecario y los bancos de inversión, deben analizar y monitorizar constantemente la solvencia de sus clientes y de sus carteras de inversión. Por ejemplo, las grandes entidades de crédito hipotecario recogen datos relacionados con los riesgos de miles de clientes potenciales cada día. Los equipos de analistas de crédito usan aplicaciones de analíticas para revisar de forma colaborativa diferentes partes de los datos de cada cliente, como los ingresos, el historial crediticio y los patrones de gasto. Las estadísticas de este análisis ayudan a los analistas de crédito a hacer recomendaciones de préstamos precisas y oportunas.

Para acelerar y escalar las analíticas de grandes conjuntos de datos, las instituciones de servicios financieros utilizan plataformas de computación de cuadrícula, como SAS Grid Manager. Los sistemas de archivos paralelos, como Managed Lustre, admiten los requisitos de almacenamiento de alto rendimiento y baja latencia de las aplicaciones SAS multiproceso.

Pronóstico del tiempo

Para predecir las condiciones meteorológicas de una zona geográfica determinada, los meteorólogos dividen la zona en varias celdas y colocan dispositivos de monitorización, como radares terrestres y globos meteorológicos, en cada celda. Estos dispositivos observan y miden las condiciones atmosféricas a intervalos regulares. Los dispositivos envían datos en streaming continuamente a una aplicación de predicción meteorológica que se ejecuta en un clúster de HPC.

La aplicación de predicción meteorológica procesa los datos transmitidos mediante modelos matemáticos basados en las relaciones físicas conocidas entre los parámetros meteorológicos medidos. Una tarea independiente procesa los datos de cada celda de la región. A medida que la aplicación recibe nuevas mediciones, cada tarea itera a través de los datos más recientes de la celda que tiene asignada e intercambia resultados con las tareas de las demás celdas de la región. Para predecir patrones meteorológicos de forma fiable, la aplicación necesita almacenar y compartir terabytes de datos que generan y a los que acceden miles de trabajos que se ejecutan en paralelo.

CFD para el diseño de aeronaves

La dinámica de fluidos computacional (CFD) implica el uso de modelos matemáticos, leyes físicas y lógica computacional para simular el comportamiento de un gas o un líquido alrededor de un objeto en movimiento. Cuando los ingenieros aeronáuticos diseñan el fuselaje de un avión, uno de los factores que tienen en cuenta es la aerodinámica. La CFD permite a los diseñadores simular rápidamente el efecto de los cambios de diseño en la aerodinámica antes de invertir tiempo y dinero en la creación de prototipos costosos. Después de analizar los resultados de cada simulación, los diseñadores optimizan atributos como el volumen y la forma de los componentes del fuselaje del avión y vuelven a simular la aerodinámica. La CFD permite a los diseñadores de aeronaves simular de forma colaborativa el efecto de cientos de cambios de diseño de este tipo rápidamente.

Para completar las simulaciones de diseño de forma eficiente, las aplicaciones de CFD necesitan acceder a los datos compartidos en menos de un milisegundo y poder almacenar grandes volúmenes de datos a velocidades de hasta 100 GBps.

Descripción general de las opciones de sistemas de archivos paralelos

En esta sección se ofrece una descripción general de las opciones disponibles enGoogle Cloud para sistemas de archivos paralelos.

Google Cloud Managed Lustre

Managed Lustre es un servicio gestionado por Google que proporciona almacenamiento de alto rendimiento y baja latencia para cargas de trabajo de HPC estrechamente acopladas. Acelera significativamente las cargas de trabajo de HPC, así como el entrenamiento y la inferencia de la IA, al proporcionar un acceso de alta capacidad y baja latencia a conjuntos de datos masivos. Para obtener información sobre cómo usar Managed Lustre en cargas de trabajo de IA y aprendizaje automático, consulta Diseñar almacenamiento para cargas de trabajo de IA y aprendizaje automático en Google Cloud. Lustre gestionado distribuye los datos en varios nodos de almacenamiento, lo que permite que muchas VMs accedan a ellos de forma simultánea. Este acceso en paralelo elimina los cuellos de botella que se producen con los sistemas de archivos convencionales y permite que las cargas de trabajo ingieran y procesen rápidamente las enormes cantidades de datos que se necesitan.

DDN Infinia

Si necesitas una orquestación de datos de IA avanzada, puedes usar DDN Infinia, que está disponible en Google Cloud Marketplace. Infinia ofrece una solución de inteligencia de datos basada en IA que está optimizada para la inferencia, el entrenamiento y las analíticas en tiempo real. Permite la ingestión de datos ultrarrápida, la indexación con metadatos y la integración perfecta con frameworks de IA como TensorFlow y PyTorch.

Estas son las principales características de DDN Infinia:

  • Alto rendimiento: ofrece una latencia inferior a un milisegundo y un rendimiento de varios TB/s.
  • Escalabilidad: admite el escalado de terabytes a exabytes y puede alojar más de 100.000 GPUs y un millón de clientes simultáneos en una sola implementación.
  • Arquitectura multicliente con calidad del servicio (QoS) predecible: ofrece entornos seguros y aislados para varios clientes con una QoS predecible que proporciona un rendimiento constante en todas las cargas de trabajo.
  • Acceso unificado a los datos: permite una integración fluida con las aplicaciones y los flujos de trabajo actuales gracias a la compatibilidad multiprotocolo integrada, que incluye Amazon S3, CSI y Cinder.
  • Seguridad avanzada: incluye cifrado integrado, codificación de borrado consciente del dominio de errores y copias de seguridad que ayudan a garantizar la protección de los datos y el cumplimiento de las normativas.

Plataforma de almacenamiento de datos inteligente de Sycomp

La plataforma de almacenamiento de datos inteligente de Sycomp, disponible en Google Cloud Marketplace, te permite ejecutar tus cargas de trabajo de computación de alto rendimiento (HPC), IA y aprendizaje automático, y Big Data en Google Cloud. Con Sycomp Storage, puedes acceder simultáneamente a datos de miles de máquinas virtuales, reducir costes gestionando automáticamente los niveles de almacenamiento y ejecutar tu aplicación de forma local o en Google Cloud. Sycomp Storage se puede implementar rápidamente y admite el acceso a tus datos a través de NFS y del cliente de IBM Storage Scale.

IBM Storage Scale es un sistema de archivos paralelo que ayuda a gestionar de forma segura grandes volúmenes (PBs) de datos. Sycomp Storage Scale es un sistema de archivos paralelo que se adapta bien a la informática de alto rendimiento, la IA, el aprendizaje automático, el Big Data y otras aplicaciones que requieren un sistema de archivos compartido compatible con POSIX. Gracias a la capacidad de almacenamiento adaptable y al escalado del rendimiento, Sycomp Storage puede admitir cargas de trabajo de HPC, IA y aprendizaje automático de pequeño y gran tamaño.

Después de implementar un clúster en Google Cloud, puedes decidir cómo quieres usarlo. Elige si quieres usar el clúster solo en la nube o en modo híbrido conectándote a clústeres de IBM Storage Scale locales, soluciones NAS NFS de terceros u otras soluciones de almacenamiento basadas en objetos.

Colaboradores

Autor: Kumar Dhanagopal | Desarrollador de soluciones multiproducto

Otros colaboradores: