Hipercomputadora de IA

Anunciamos Ironwood, nuestra TPU más potente, capaz y con eficiencia energética hasta la fecha.

Entrena, ajusta y entrega en una supercomputadora de IA

AI Hypercomputer es el sistema de supercomputación integrado que respalda cada carga de trabajo de IA en Google Cloud. Se compone de hardware, software y modelos de consumo diseñados para simplificar la implementación de IA, mejorar la eficiencia a nivel del sistema y optimizar los costos.

Guía: Nuestros cuatro principales casos de uso, instructivos y arquitecturas de referencia de AI Hypercomputer

Notas de la versión

Descripción general

Hardware optimizado para IA

Elige entre opciones de procesamiento, almacenamiento y redes optimizadas para objetivos detallados a nivel de la carga de trabajo, ya sea una capacidad de procesamiento mayor, una latencia más baja, un tiempo de obtención de resultados más rápido o un TCO más bajo. Obtén más información sobre los siguientes temas: TPU de Google Cloud, GPU de Google Cloud, además de las novedades en almacenamiento y redes.

Video: Las innovaciones más recientes en procesamiento

Obtén información sobre las opciones de procesamiento de IA diseñadas a medida de Google Cloud en este resumen de 10 minutos de los anuncios de 2025.

Mirar el video on demand

Software líder, frameworks abiertos

Aprovecha al máximo tu hardware con software líder en la industria, integrado con frameworks, bibliotecas y compiladores abiertos para que el desarrollo, la integración y la administración de la IA sean más eficientes.

Compatibilidad con PyTorch, JAX, Keras, vLLM, Megatron-LM, NeMo Megatron, MaxText, MaxDiffusion y muchos más.
La integración profunda con el compilador XLA permite la interoperabilidad entre diferentes aceleradores, mientras que Pathways on Cloud te permite usar el mismo entorno de ejecución distribuido que impulsa la infraestructura interna de entrenamiento y la inferencia a gran escala de Google.
Todo esto se puede implementar en el entorno que elijas, ya sea Google Kubernetes Engine, Cluster Director o Google Compute Engine.

Video: Escucha a Moloco, LG y Shopify

Descubre cómo aprovechan las soluciones de IA de Google Cloud para impulsar la innovación y transformar sus negocios

Mirar el video on demand

Modelos de consumo flexible

Las opciones de consumo flexible permiten a los clientes elegir costos fijos con descuentos por compromiso de uso o modelos dinámicos según demanda para satisfacer las necesidades empresariales. El programador dinámico de cargas de trabajo y las VMs Spot pueden ayudarte a obtener la capacidad que necesitas sin sobreasignar recursos. Además, las herramientas de optimización de costos de Google Cloud ayudan a automatizar el uso de recursos para reducir las tareas manuales de los ingenieros.

Optimizar el acceso a los recursos y la economía de las cargas de trabajo de IA/AA

Descubre cómo el servicio del Programador dinámico de cargas de trabajo optimiza la ejecución de tus cargas de trabajo de IA.

Leer el blog

Cómo funciona

Google es uno de los líderes en inteligencia artificial gracias a la invención de tecnologías como TensorFlow. ¿Sabías que puedes aprovechar la tecnología de Google en tus propios proyectos? Conoce la historia de innovación en infraestructura de IA de Google y cómo puedes aprovecharla en tus cargas de trabajo.

Diagrama de arquitectura del hipercomputadora de IA de Google Cloud junto con la foto de la gerente de producto de Google Cloud, Chelsie

Usos comunes

Ejecuta entrenamiento y entrenamiento previo de IA a gran escala

Entrenamiento de IA potente, escalable y eficiente

Las cargas de trabajo de entrenamiento deben ejecutarse como trabajos altamente sincronizados en miles de nodos en clústeres estrechamente acoplados. Un solo nodo degradado puede interrumpir un trabajo completo y retrasar el tiempo de salida al mercado. Realice lo siguiente:

Asegúrate de que el clúster se configure rápidamente y se ajuste a la carga de trabajo en cuestión.
Predice fallas y soluciona problemas rápidamente.
Y continúa con una carga de trabajo, incluso cuando se producen fallas.

Queremos que sea extremadamente fácil para los clientes implementar y escalar cargas de trabajo de entrenamiento en Google Cloud.

Instructivos

Entrenamiento de IA potente, escalable y eficiente

Asegúrate de que el clúster se configure rápidamente y se ajuste a la carga de trabajo en cuestión.
Predice fallas y soluciona problemas rápidamente.
Y continúa con una carga de trabajo, incluso cuando se producen fallas.

Queremos que sea extremadamente fácil para los clientes implementar y escalar cargas de trabajo de entrenamiento en Google Cloud.

Recursos adicionales

Entrenamiento de IA potente, escalable y eficiente

Para crear un clúster de IA, comienza con uno de nuestros instructivos:

Crea un clúster de Slurm con GPUs (VMs A4) y Cluster Toolkit
Crea un clúster de GKE con Cluster Director para GKE o Cluster Toolkit

Ejemplos de clientes

Character.AI aprovecha Google Cloud para escalar verticalmente

“Necesitamos GPU para generar respuestas a los mensajes de los usuarios. Y a medida que tenemos más usuarios en nuestra plataforma, necesitamos más GPU para prestarles servicios. En Google Cloud, podemos experimentar para descubrir cuál es la plataforma adecuada para una carga de trabajo en particular. Es estupendo tener esa flexibilidad para elegir las soluciones más valiosas”. Myle Ott, ingeniero fundador, Character.AI

Myle Ott, ingeniero fundador, Character.AI

1:36

Implementa y organiza aplicaciones de IA

Aprovecha el software de organización de IA líder y los frameworks abiertos para ofrecer experiencias potenciadas por IA

Google Cloud proporciona imágenes que contienen sistemas operativos, frameworks, bibliotecas y controladores comunes. AI Hypercomputer optimiza estas imágenes preconfiguradas para admitir tus cargas de trabajo de IA.

Frameworks y bibliotecas de IA y AA: Usa imágenes de Docker de Deep Learning Software Layer (DLSL) para ejecutar modelos de AA, como NeMO y MaxText, en un clúster de Google Kubernetes Engine (GKE).
Implementación de clústeres y organización de IA: Puedes implementar tus cargas de trabajo de IA en clústeres de GKE, clústeres de Slurm o instancias de Compute Engine. Para obtener más información, consulta Descripción general de la creación de VMs y clústeres.