Anuncios de silicio personalizado de Google: TPUs Ironwood y nuevas máquinas virtuales Axion, diseñadas para impulsar la era de la inferencia.

Unidades de procesamiento de tensor de Cloud

Agiliza el desarrollo de la IA con las TPUs de Google Cloud

Las TPUs de Cloud optimizan el rendimiento y el coste de todas las cargas de trabajo de IA, desde el entrenamiento hasta la inferencia. Las TPUs cuentan con una infraestructura de centros de datos de primera categoría y ofrecen una gran fiabilidad, disponibilidad y seguridad.

¿No sabes si las TPU son adecuadas? Descubre cuándo debes usar las GPUs o las CPUs de las instancias de Compute Engine para ejecutar las cargas de trabajo de aprendizaje automático.

Información general

¿Qué es una unidad de procesamiento de tensor (TPU)?

Las TPUs de Google Cloud son aceleradores de IA diseñados a medida y optimizados para el entrenamiento y la inferencia de modelos de IA. Son ideales para una amplia gama de casos prácticos, como agentes, generación de código, generación de contenido multimedia, voz sintética, servicios de visión, motores de recomendaciones o modelos de personalización, entre otros. Las TPUs son el motor de Gemini y de todas las aplicaciones de Google basadas en IA, como la Búsqueda, Fotos y Maps, que dan servicio a más de mil millones de usuarios.

¿Cuáles son las ventajas de las TPUs de Cloud?

Las TPUs de Cloud están diseñadas para escalar de forma rentable una amplia gama de cargas de trabajo de IA, lo que abarca el entrenamiento, el ajuste y la inferencia. Las TPUs de Cloud ofrecen la versatilidad necesaria para agilizar las cargas de trabajo en los frameworks de IA más importantes, como PyTorch, JAX y TensorFlow. Orquesta cargas de trabajo de IA a gran escala de forma fluida gracias a la integración de TPU de Cloud en Google Kubernetes Engine (GKE). Aprovecha la herramienta Dynamic Workload Scheduler para mejorar la escalabilidad de las cargas de trabajo programando todos los aceleradores necesarios simultáneamente. Los clientes que buscan la forma más sencilla de desarrollar modelos de IA también pueden aprovechar las TPU de Cloud en Vertex AI, una plataforma de IA totalmente gestionada.

¿Cuándo se deben usar las TPUs de Cloud?

Las TPUs de Cloud están optimizadas para entrenar modelos de aprendizaje profundo grandes y complejos que incluyan muchos cálculos matriciales; por ejemplo, modelos de lenguaje extensos (LLM). Las TPU de Cloud también cuentan con SparseCore, que son procesadores de flujo de datos que aceleran los modelos a partir de las incrustaciones que se encuentran en los modelos de recomendación. Otros casos prácticos incluyen la atención sanitaria, como el modelado de pliegue de proteínas y el descubrimiento de fármacos.

¿En qué se diferencian las TPUs de Cloud de las GPUs?

Una GPU es un procesador especializado que se diseñó originalmente para manipular los gráficos de un ordenador. Su estructura paralela los convierte en ideales para los algoritmos que procesan grandes bloques de datos que suelen encontrarse en las cargas de trabajo de IA. Más información

Una TPU es un circuito integrado (ASIC) específico de una aplicación diseñado por Google para las redes neuronales. Las TPU cuentan con características especializadas, como la multiplicación de la matriz (MXU) y la topología de interconexión propia, lo que las convierte en ideales para agilizar el entrenamiento y la inferencia de la IA.

Versiones de TPU de Cloud

Versión de TPU de Cloud	Descripción	Disponibilidad
Ironwood	Nuestra TPU más potente y eficiente hasta la fecha, para el entrenamiento y la inferencia a gran escala	La TPU Ironwood estará disponible para el público general en el cuarto trimestre del 2025
Trillium	TPU de sexta generación. Mejora de la eficiencia energética y del rendimiento máximo de computación por chip para el entrenamiento y la inferencia	Trillium está disponible para el público general en Norteamérica (región este de EE. UU.), Europa (región oeste) y Asia (región noreste)
TPU de Cloud v.5p	TPU potente para crear modelos fundacionales grandes y complejos	La versión 5p de la TPU de Cloud está disponible para el público general en Norteamérica (región este de EE. UU.)
TPU de Cloud (5ª versión)	TPU rentable y accesible para cargas de trabajo de entrenamiento e inferencia de escala media a grande	La versión 5e de la TPU de Cloud está disponible para el público general en Norteamérica (regiones centro, este, sur y oeste de EE. UU.), Europa (región oeste) y Asia (región sudeste).

Información adicional sobre las versiones de las TPU de Cloud

Ironwood

Descripción

Nuestra TPU más potente y eficiente hasta la fecha, para el entrenamiento y la inferencia a gran escala

Disponibilidad

La TPU Ironwood estará disponible para el público general en el cuarto trimestre del 2025

Trillium

Descripción

TPU de sexta generación. Mejora de la eficiencia energética y del rendimiento máximo de computación por chip para el entrenamiento y la inferencia

Disponibilidad

Trillium está disponible para el público general en Norteamérica (región este de EE. UU.), Europa (región oeste) y Asia (región noreste)

TPU de Cloud v.5p

Descripción

TPU potente para crear modelos fundacionales grandes y complejos

Disponibilidad

La versión 5p de la TPU de Cloud está disponible para el público general en Norteamérica (región este de EE. UU.)

TPU de Cloud (5ª versión)

Descripción

TPU rentable y accesible para cargas de trabajo de entrenamiento e inferencia de escala media a grande

Disponibilidad

La versión 5e de la TPU de Cloud está disponible para el público general en Norteamérica (regiones centro, este, sur y oeste de EE. UU.), Europa (región oeste) y Asia (región sudeste).

Información adicional sobre las versiones de las TPU de Cloud

Cómo funciona

Adéntrate en la magia de las TPUs de Google Cloud y en una exclusiva vista interna de los centros de datos donde todo tiene lugar. Con las TPUs de Cloud, los clientes pueden ejecutar algunas de las mayores cargas de trabajo de IA del mundo, y esa potencia no se limita a un chip. En este vídeo, puedes comprobar los componentes del sistema de TPU, como las redes de centros de datos, los interruptores de circuito óptico, los sistemas de refrigeración de agua y la verificación de seguridad biométrica, entre otros.

Usos habituales

Ejecuta cargas de trabajo de entrenamiento de IA a gran escala

Cómo escalar tu modelo

Entrenar modelos de lenguaje de gran tamaño a menudo parece una alquimia, pero entender y optimizar el rendimiento de tus modelos no tiene por qué serlo. Este libro pretende desmitificar la ciencia de escalar modelos de lenguaje en TPUs: cómo funcionan y se comunican entre sí, cómo se ejecutan los modelos de lenguaje de gran tamaño en hardware real y cómo se pueden paralelizar los modelos durante el entrenamiento y la inferencia para que se ejecuten de forma eficiente a gran escala.

Instrucciones

Cómo escalar tu modelo

Entrenar modelos de lenguaje de gran tamaño a menudo parece una alquimia, pero entender y optimizar el rendimiento de tus modelos no tiene por qué serlo. Este libro pretende desmitificar la ciencia de escalar modelos de lenguaje en TPUs: cómo funcionan y se comunican entre sí, cómo se ejecutan los modelos de lenguaje de gran tamaño en hardware real y cómo se pueden paralelizar los modelos durante el entrenamiento y la inferencia para que se ejecuten de forma eficiente a gran escala.

Otros recursos

Curso en IA potente, escalable y eficiente

Maximiza el rendimiento, la eficiencia y el tiempo de amortización con las TPU de Cloud.Escala a miles de chips con el entrenamiento Multislice de TPU de Cloud.Mide y mejora la productividad de la formación en aprendizaje automático a gran escala con la medición de Goodput de aprendizaje automático.Ponte manos a la obra rápidamente con MaxText y MaxDiffusion, que son despliegues de referencia de código abierto para entrenar modelos de gran tamaño.

Escalado casi lineal a decenas de miles de chips con el entrenamiento multislice

Optimiza los modelos de IA básicos

Adapta los LLMs a tus aplicaciones con Pytorch/XLA

Perfecciona los modelos básicos de forma eficiente aprovechando datos de entrenamiento propios que representen tu caso práctico. La versión 5e de la TPU de Cloud ofrece un rendimiento de ajuste de LLM hasta 1,9 veces superior por dólar invertido en comparación con Cloud TPU v4.

Definir los ajustes de LLM mediante TPU de Cloud, rendimiento por $

Otros recursos

Adapta los LLMs a tus aplicaciones con Pytorch/XLA

Perfecciona los modelos básicos de forma eficiente aprovechando datos de entrenamiento propios que representen tu caso práctico. La versión 5e de la TPU de Cloud ofrece un rendimiento de ajuste de LLM hasta 1,9 veces superior por dólar invertido en comparación con Cloud TPU v4.

Servir cargas de trabajo de inferencia de IA a gran escala

Inferencia rentable, escalable y de alto rendimiento

Acelera la inferencia de IA con vLLM y MaxDiffusion. vLLM es un motor de inferencia de código abierto muy popular, diseñado para conseguir un alto rendimiento y una baja latencia en la inferencia de modelos de lenguaje extensos (LLMs). Ahora, vLLM, que se basa en tpu-inference, ofrece vLLM TPU para la inferencia de LLMs de alto rendimiento y baja latencia. Unifica JAX y PyTorch, lo que proporciona una cobertura de modelos más amplia (Gemma, Llama, Qwen) y funciones mejoradas. MaxDiffusion optimiza la inferencia de modelos de difusión en las TPUs de Cloud para conseguir un alto rendimiento.

Sirve un LLM mediante TPU Trillium en GKE con vLLM

Instrucciones

Inferencia rentable, escalable y de alto rendimiento

Acelera la inferencia de IA con vLLM y MaxDiffusion. vLLM es un motor de inferencia de código abierto muy popular, diseñado para conseguir un alto rendimiento y una baja latencia en la inferencia de modelos de lenguaje extensos (LLMs). Ahora, vLLM, que se basa en tpu-inference, ofrece vLLM TPU para la inferencia de LLMs de alto rendimiento y baja latencia. Unifica JAX y PyTorch, lo que proporciona una cobertura de modelos más amplia (Gemma, Llama, Qwen) y funciones mejoradas. MaxDiffusion optimiza la inferencia de modelos de difusión en las TPUs de Cloud para conseguir un alto rendimiento.

Sirve un LLM mediante TPU Trillium en GKE con vLLM

Otros recursos

Maximiza el rendimiento y los ingresos con AI infrastructure escalable

La versión 5e de TPU de Cloud ofrece inferencias de alto rendimiento y rentables en una amplia variedad de cargas de trabajo de IA, incluidos los LLMs y los modelos de IA generativa más recientes. La versión 5e de TPU ofrece un rendimiento hasta 2,5 veces más alto por dólar invertido y una velocidad hasta 1,7 veces mayor que Cloud TPU v4. Cada chip de TPU v5e proporciona hasta 393 billones de operaciones int8 por segundo, lo que permite que los modelos complejos hagan predicciones rápidas. Los pods de la versión 5e de TPU ofrecen hasta 1000 billones de operaciones int8 por segundo o 100 petaOps de potencia de computación.

TPU de Cloud en GKE

Ejecuta cargas de trabajo de IA optimizadas con la orquestación de plataformas

Una plataforma sólida de IA y aprendizaje automático comprende las siguientes capas: (i) orquestación de infraestructuras que admiten GPUs para entrenar y servir cargas de trabajo a escala, (ii) integración flexible con frameworks de computación distribuida y tratamiento de datos, y (iii) asistencia a varios equipos dentro de la misma infraestructura para maximizar el uso de los recursos.

GKE

Instrucciones

Ejecuta cargas de trabajo de IA optimizadas con la orquestación de plataformas

Una plataforma sólida de IA y aprendizaje automático comprende las siguientes capas: (i) orquestación de infraestructuras que admiten GPUs para entrenar y servir cargas de trabajo a escala, (ii) integración flexible con frameworks de computación distribuida y tratamiento de datos, y (iii) asistencia a varios equipos dentro de la misma infraestructura para maximizar el uso de los recursos.

GKE

Otros recursos

Escalar sin esfuerzo con GKE

Combina la potencia de las TPU de Cloud con la flexibilidad y la escalabilidad de GKE para crear y desplegar modelos de aprendizaje automático con mayor rapidez y facilidad que nunca. Gracias a las TPUs de Cloud que están disponibles en GKE, ahora puedes tener un único entorno de operaciones coherente para todas tus cargas de trabajo con la finalidad de estandarizar los flujos de procesamiento automatizados de MLOps.

TPU de Cloud en Vertex AI

Vertex AI Training & Predictions con las TPUs de Cloud

Si buscas la forma más sencilla de desarrollar modelos de IA, puedes desplegar la versión 5e de TPU de Cloud con Vertex AI. Se trata de una plataforma integral para crear modelos de IA en una infraestructura totalmente gestionada que se ha creado especialmente para ofrecer un servicio de baja latencia y un entrenamiento de alto rendimiento.

Otros recursos

Vertex AI Training & Predictions con las TPUs de Cloud

Si buscas la forma más sencilla de desarrollar modelos de IA, puedes desplegar la versión 5e de TPU de Cloud con Vertex AI. Se trata de una plataforma integral para crear modelos de IA en una infraestructura totalmente gestionada que se ha creado especialmente para ofrecer un servicio de baja latencia y un entrenamiento de alto rendimiento.

Precios

Precios de las TPU de Cloud	Todos los precios de las TPU de Cloud se aplican por hora de chip
Versión de TPU de Cloud	Precio de evaluación (USD)	Compromiso de 1 año (USD)	Compromiso de 3 años (USD)
Trillium	Desde 2,7 USD por hora de chip	Desde 1,8900 USD por hora de chip	Desde 1,22 USD por hora de chip
TPU de Cloud v.5p	Desde 4,2000 USD por hora de chip	Desde 2,9400 USD por hora de chip	Desde 1,8900 USD por hora de chip
TPU de Cloud v5e	Desde 1,2000 USD por hora de chip	Desde 0,8400 USD por hora de chip	Desde 0,5400 USD por hora de chip

Los precios de las TPU de Cloud varían según el producto y la región.

Precios de las TPU de Cloud

Todos los precios de las TPU de Cloud se aplican por hora de chip

Trillium

Precio de evaluación (USD)

Starting at

2,7 USD

por hora de chip

Compromiso de 1 año (USD)

Starting at

1,8900 USD

por hora de chip

Compromiso de 3 años (USD)

Starting at

1,22 USD

por hora de chip

TPU de Cloud v.5p

Precio de evaluación (USD)

Starting at

4,2000 USD

por hora de chip

Compromiso de 1 año (USD)

Starting at

2,9400 USD

por hora de chip

Compromiso de 3 años (USD)

Starting at

1,8900 USD

por hora de chip

TPU de Cloud v5e

Precio de evaluación (USD)

Starting at

1,2000 USD

por hora de chip

Compromiso de 1 año (USD)

Starting at

0,8400 USD

por hora de chip

Compromiso de 3 años (USD)

Starting at

0,5400 USD

por hora de chip

Los precios de las TPU de Cloud varían según el producto y la región.

CALCULADORA DE PRECIOS

Calcula tus costes mensuales de TPU de Cloud, incluyendo los precios y las tarifas específicas de cada región.

PRESUPUESTO PERSONALIZADO

Ponte en contacto con nuestro equipo de ventas para solicitar un presupuesto personalizado para tu organización.

Unidades de procesamiento de tensor de Cloud

Agiliza el desarrollo de la IA con las TPUs de Google Cloud

Aspectos destacados del producto

¿Qué es una unidad de procesamiento de tensor (TPU)?

¿Cuáles son las ventajas de las TPUs de Cloud?

¿Cuándo se deben usar las TPUs de Cloud?

¿En qué se diferencian las TPUs de Cloud de las GPUs?

Ejecuta cargas de trabajo de entrenamiento de IA a gran escala

Cómo escalar tu modelo

Curso en IA potente, escalable y eficiente

Instrucciones

Cómo escalar tu modelo

Otros recursos

Curso en IA potente, escalable y eficiente

Optimiza los modelos de IA básicos

Adapta los LLMs a tus aplicaciones con Pytorch/XLA

Otros recursos

Adapta los LLMs a tus aplicaciones con Pytorch/XLA

Servir cargas de trabajo de inferencia de IA a gran escala

Inferencia rentable, escalable y de alto rendimiento

Maximiza el rendimiento y los ingresos con AI infrastructure escalable

Instrucciones

Inferencia rentable, escalable y de alto rendimiento

Otros recursos

Maximiza el rendimiento y los ingresos con AI infrastructure escalable

TPU de Cloud en GKE

Ejecuta cargas de trabajo de IA optimizadas con la orquestación de plataformas

Escalar sin esfuerzo con GKE

Instrucciones

Ejecuta cargas de trabajo de IA optimizadas con la orquestación de plataformas

Otros recursos

Escalar sin esfuerzo con GKE

TPU de Cloud en Vertex AI

Vertex AI Training & Predictions con las TPUs de Cloud

Otros recursos

Vertex AI Training & Predictions con las TPUs de Cloud

CALCULADORA DE PRECIOS

PRESUPUESTO PERSONALIZADO

Empieza tu prueba de concepto

Prueba las TPU de Cloud gratis

Breve introducción al uso de Cloud Storage

Ejecutar TensorFlow en una máquina virtual de TPU de Cloud

Ejecutar el modelo en TPUs de Cloud

Ejecutar PyTorch en la máquina virtual de TPU de Cloud