Hiperordenador con IA

Impulsamos la era de la inferencia con las TPUs Ironwood y las nuevas máquinas virtuales basadas en Axion.

Entrena, ajusta y sirve en un superordenador de IA

AI Hypercomputer es el sistema de supercomputación integrado que se encuentra detrás de todas las cargas de trabajo de IA en Google Cloud. Se compone de hardware, software y modelos de consumo diseñados para simplificar el despliegue de la IA, mejorar la eficiencia a nivel de sistema y optimizar los costes.

Guía: Nuestros cuatro principales casos prácticos, arquitecturas de referencia y tutoriales de AI Hypercomputer

Notas de novedades

Información general

Hardware optimizado para IA

Elige entre opciones de computación (incluidos aceleradores de IA), almacenamiento y redes optimizadas para objetivos específicos a nivel de carga de trabajo, ya sea un mayor rendimiento, una latencia más baja, un tiempo de obtención de resultados más rápido o un menor coste total de propiedad. Consulta más información sobre: TPUs de Cloud, GPUs de Cloud y las últimas novedades en almacenamiento y redes.

Anuncio: Anthropic ampliará el uso de las TPUs y los servicios de Google Cloud

Anthropic anunció sus planes de acceder a hasta 1 millón de TPUs para entrenar y servir modelos de Claude, lo que supone una inversión de decenas de miles de millones de dólares. Anthropic eligió las TPUs por su relación calidad‑precio y su eficiencia.

Lee el comunicado de prensa

Software líder, frameworks abiertos

Saca más partido a tu hardware con un software líder en el sector, integrado con frameworks, bibliotecas y compiladores abiertos para que el desarrollo, la integración y la gestión de la IA sean más eficientes.

Compatibilidad con PyTorch, JAX, Keras, vLLM, Megatron-LM, NeMo Megatron, MaxText, MaxDiffusion y muchos más.
La integración profunda con el compilador XLA permite la interoperabilidad entre distintos aceleradores, mientras que Pathways on Cloud te permite usar el mismo tiempo de ejecución distribuido que impulsa la infraestructura interna de entrenamiento e inferencia a gran escala de Google.
Todo esto se puede desplegar en el entorno que prefieras, ya sea Google Kubernetes Engine, Cluster Director o Google Compute Engine.

Vídeo: Moloco, LG y Shopify comparten su experiencia

Descubre cómo aprovechan las soluciones de IA de Google Cloud para impulsar la innovación y transformar sus negocios

Ver bajo demanda

Modelos de consumo flexibles

Las opciones de consumo flexibles permiten a los clientes elegir entre costes fijos con descuentos por uso comprometido o modelos dinámicos bajo demanda para satisfacer las necesidades de su negocio. Dynamic Workload Scheduler y las Spot VMs pueden ayudarte a obtener la capacidad que necesitas sin tener que asignar demasiadas tareas. Además, las herramientas de optimización de costes de Google Cloud ayudan a automatizar el uso de recursos para reducir las tareas manuales de los ingenieros.

Actualizaciones de Dynamic Workload Scheduler

Lee esta entrada de blog para enterarte de las últimas novedades sobre Dynamic Workload Scheduler y otras actualizaciones de AI Hypercomputer.

Leer el blog

Cómo funciona

En esta ponencia del AI Infra Summit 2025, un líder de Google Cloud explica cuáles son los próximos pasos en los fundamentos de la IA y cómo usar AI Hypercomputer para la inferencia, además de describir nuestras últimas prácticas recomendadas de tecnología que puedes usar hoy mismo.

Usos habituales

Servir modelos a gran escala de forma rentable

Maximiza la relación precio-rendimiento y la fiabilidad de las cargas de trabajo de inferencia

La inferencia se está volviendo más diversa y compleja rápidamente, y está evolucionando en tres áreas principales:

En primer lugar, está cambiando la forma en que interactuamos con la IA. Ahora las conversaciones tienen un contexto mucho más amplio y diverso.
En segundo lugar, el razonamiento sofisticado y la inferencia multietapa están haciendo que los modelos de Mixture-of-Experts (MoE) sean más comunes. Esto está redefiniendo cómo se escalan la memoria y la computación desde la entrada inicial hasta la salida final.
Por último, está claro que el valor real no se basa solo en el número de tokens por dólar, sino en la utilidad de la respuesta. ¿Tiene el modelo los conocimientos adecuados? ¿Ha respondido correctamente a una pregunta empresarial importante? Por eso creemos que los clientes necesitan mejores mediciones, que se centren en el coste total de las operaciones del sistema, no en el precio de sus procesadores.

Instrucciones

Maximiza la relación precio-rendimiento y la fiabilidad de las cargas de trabajo de inferencia

La inferencia se está volviendo más diversa y compleja rápidamente, y está evolucionando en tres áreas principales:

En primer lugar, está cambiando la forma en que interactuamos con la IA. Ahora las conversaciones tienen un contexto mucho más amplio y diverso.
En segundo lugar, el razonamiento sofisticado y la inferencia multietapa están haciendo que los modelos de Mixture-of-Experts (MoE) sean más comunes. Esto está redefiniendo cómo se escalan la memoria y la computación desde la entrada inicial hasta la salida final.
Por último, está claro que el valor real no se basa solo en el número de tokens por dólar, sino en la utilidad de la respuesta. ¿Tiene el modelo los conocimientos adecuados? ¿Ha respondido correctamente a una pregunta empresarial importante? Por eso creemos que los clientes necesitan mejores mediciones, que se centren en el coste total de las operaciones del sistema, no en el precio de sus procesadores.

Otros recursos

Ver recursos de inferencia de IA

¿Qué es la inferencia de IA? Nuestra guía completa sobre tipos, comparaciones y casos prácticos
Ejecuta recetas de inferencia de prácticas recomendadas con GKE Inference Quickstart
Haz un curso sobre la inferencia de IA en Cloud Run
Mira este vídeo sobre el secreto de la inferencia de IA rentable
Descubre cómo acelerar las cargas de trabajo de inferencia de IA

Ejemplos de clientes

La IA convierte a los fans del deporte en diseñadores de equipaciones

PUMA se ha asociado con Google Cloud para usar su infraestructura de IA integrada (AI Hypercomputer), lo que le permite usar Gemini para las peticiones de los usuarios junto con Dynamic Workload Scheduler para escalar dinámicamente la inferencia en las GPUs, lo que reduce drásticamente los costes y el tiempo de generación.

Impacto:

Han reducido el tiempo de generación de kits de IA de 2 a 5 minutos a solo 30 segundos. De esta forma, la plataforma se convirtió en una experiencia rápida y verdaderamente interactiva que mantenía el interés de los usuarios.
En solo 10 días, los fans crearon 180.000 kits y emitieron 1,7 millones de valoraciones.
El proyecto demostró que PUMA podía conectar con su comunidad de una nueva forma. La marca fue más allá de una simple relación entre marca y consumidor, ya que consiguió que los fans se convirtieran en cocreadores activos, lo que proporcionó a la empresa información directa y en tiempo real sobre los deseos creativos de sus consumidores más apasionados.

New Way Now: con AI Creator, los fans de PUMA pueden diseñar equipaciones reales

Ejecuta entrenamiento y preentrenamiento de IA a gran escala

Curso en IA potente, escalable y eficiente

Las cargas de trabajo de entrenamiento deben ejecutarse como tareas altamente sincronizadas en miles de nodos de clústeres estrechamente acoplados. Un solo nodo degradado puede interrumpir toda una tarea y retrasar el tiempo de lanzamiento al mercado. Haz lo siguiente:

Asegurarte de que el clúster se configura rápidamente y se ajusta a la carga de trabajo en cuestión
Predice los fallos y soluciona los problemas rápidamente.
Y continúa con una carga de trabajo, incluso cuando se produzcan fallos

Queremos que los clientes puedan desplegar y escalar cargas de trabajo de entrenamiento en Google Cloud de forma muy sencilla.