Lee el artículo "Inside the 8th-generation TPU: An architecture deep dive" (Dentro de la TPU de 8.ª generación: un análisis en profundidad de la arquitectura)

Unidades de procesamiento de tensor (TPUs)

Diseñado para la IA de última generación

Crea, optimiza y escala cargas de trabajo de entrenamiento, inferencia y aprendizaje por refuerzo para alimentar agentes de razonamiento autónomo

Información general

Una década de unidades de procesamiento de tensor (TPUs)

Las TPUs son aceleradores diseñados a medida y creados específicamente para cargas de trabajo de IA, como agentes, generación de código, modelos de lenguaje extensos, generación de contenido multimedia, voz sintética, servicios de visión, motores de recomendaciones o modelos de personalización. Las TPUs son el motor de Gemini y de todas las aplicaciones de Google basadas en IA, como la Búsqueda, Fotos y Maps, que dan servicio a más de mil millones de usuarios.

Diseñado específicamente para la IA de agentes

La transición a los agentes de IA requiere una infraestructura con capacidades de razonamiento multipaso y aprendizaje por refuerzo continuo. Las TPUs rompen la "barrera de la memoria" de inferencia al alojar cachés de clave-valor masivas enteramente en el chip, utilizando una SRAM integrada ampliada con TPU 8i. Esta arquitectura, combinada con nuestro motor SparseCore para descargar tareas de comunicación, reduce el tiempo de inactividad de los núcleos. El resultado es un rendimiento predecible y de baja latencia que permite ejecutar bucles de razonamiento complejos.

Rendimiento sin concesiones

Reduce el tiempo de despliegue al acortar los plazos de entrenamiento de los modelos de frontera. Las TPUs de Cloud maximizan el Goodput, lo que garantiza que casi todos los ciclos de computación se dediquen al aprendizaje activo. Esto se complementa con una interconexión de alta velocidad entre chips, conmutación de circuitos ópticos y la red Virgo, de forma que los aceleradores funcionan como un sistema unificado y altamente fiable.

Economía sostenible a gran escala

Las TPUs están diseñadas para mejorar el valor y el consumo de energía al centrarse en las demandas computacionales de la IA, y eliminar así la sobrecarga operativa propia de las arquitecturas de uso general. La gestión de energía integrada se ajusta dinámicamente al volumen de solicitudes en tiempo real, de manera que ofrece un alto rendimiento por vatio y soporta cargas de trabajo de IA complejas de forma sostenible.

Operaciones abiertas, flexibles y fiables

Desarrolla en un ecosistema abierto con herramientas y bibliotecas que ya conoces. Las TPUs de Cloud ofrecen compatibilidad nativa y de alto rendimiento con PyTorch y JAX, y admiten el motor vLLM para una inferencia rápida. Gestiona y escala estos despliegues de forma fiable en clústeres globales con Google Kubernetes Engine (GKE).

Versiones de TPU de Cloud

Versión de TPU de Cloud	Descripción	Disponibilidad
TPU 8i	La TPU 8i está optimizada para el posentrenamiento y la inferencia, y ofrece una mejora del 80 % en el rendimiento por dólar en comparación con las generaciones anteriores en lo que respecta a la inferencia de baja latencia para modelos MoE extensos.	Próximamente
TPU 8t	La TPU 8t se ha diseñado para el preentrenamiento a gran escala y las cargas de trabajo con muchos embeddings a una escala de 9600 chips en un único superpod, y ofrece un rendimiento por dólar 2,7 veces superior al de Ironwood en el entrenamiento a gran escala.	Próximamente
Ironwood	TPU de 7.ª generación con eficiencia energética diseñada para el entrenamiento, el razonamiento y la inferencia a gran escala. Cuenta con 9216 chips refrigerados por líquido por pod, y ofrece 42,5 exaflops y un rendimiento por chip 4 veces mejor que el de Trillium.	Ironwood está disponible de forma general en Norteamérica (región central) y Europa (región oeste)
Trillium	TPU de sexta generación con eficiencia energética y rendimiento computacional máximo mejorados para el entrenamiento y la inferencia. Funciona con un 67 % más de eficiencia energética y ofrece un rendimiento computacional máximo por chip 4,7 veces superior a la generación anterior de TPU v5e.	Trillium está disponible para el público general en Norteamérica (región este de EE. UU.), Europa (región oeste) y Asia (región noreste)

Información adicional sobre las versiones de las TPU de Cloud

TPU 8i

Descripción

La TPU 8i está optimizada para el posentrenamiento y la inferencia, y ofrece una mejora del 80 % en el rendimiento por dólar en comparación con las generaciones anteriores en lo que respecta a la inferencia de baja latencia para modelos MoE extensos.

Disponibilidad

Próximamente

TPU 8t

Descripción

La TPU 8t se ha diseñado para el preentrenamiento a gran escala y las cargas de trabajo con muchos embeddings a una escala de 9600 chips en un único superpod, y ofrece un rendimiento por dólar 2,7 veces superior al de Ironwood en el entrenamiento a gran escala.

Disponibilidad

Próximamente

Ironwood

Descripción

TPU de 7.ª generación con eficiencia energética diseñada para el entrenamiento, el razonamiento y la inferencia a gran escala. Cuenta con 9216 chips refrigerados por líquido por pod, y ofrece 42,5 exaflops y un rendimiento por chip 4 veces mejor que el de Trillium.

Disponibilidad

Ironwood está disponible de forma general en Norteamérica (región central) y Europa (región oeste)

Trillium

Descripción

TPU de sexta generación con eficiencia energética y rendimiento computacional máximo mejorados para el entrenamiento y la inferencia. Funciona con un 67 % más de eficiencia energética y ofrece un rendimiento computacional máximo por chip 4,7 veces superior a la generación anterior de TPU v5e.

Disponibilidad

Trillium está disponible para el público general en Norteamérica (región este de EE. UU.), Europa (región oeste) y Asia (región noreste)

Información adicional sobre las versiones de las TPU de Cloud

Cómo funciona

Adéntrate en la magia de las TPUs de Google Cloud y en una exclusiva vista interna de los centros de datos. Los clientes usan las TPUs de Cloud para ejecutar algunas de las cargas de trabajo de IA a gran escala, y esa capacidad no se limita solo a un chip. En este vídeo, puedes comprobar los componentes del sistema de TPU, como las redes de centros de datos, los interruptores de circuito óptico, los sistemas de refrigeración de agua y la verificación de seguridad biométrica, entre otros.

Usos habituales

Ejecuta cargas de trabajo de la fase anterior al entrenamiento de IA a gran escala

Agiliza el tiempo de lanzamiento de modelos fundacionales

Reduce los plazos de preentrenamiento de modelos fundacionales masivos. La TPU 8t proporciona una potencia de computación de alto rendimiento en un solo pod y se escala a través de la red Virgo. Gracias al acceso rápido al almacenamiento y al aislamiento NUMA basado en Axion, la arquitectura alcanza un alto Goodput, lo que garantiza que los ciclos de computación se dediquen a la creación activa de modelos en lugar de estar inactivos durante la transferencia de datos o los restablecimientos de hardware.

Otros recursos

Agiliza el tiempo de lanzamiento de modelos fundacionales

Reduce los plazos de preentrenamiento de modelos fundacionales masivos. La TPU 8t proporciona una potencia de computación de alto rendimiento en un solo pod y se escala a través de la red Virgo. Gracias al acceso rápido al almacenamiento y al aislamiento NUMA basado en Axion, la arquitectura alcanza un alto Goodput, lo que garantiza que los ciclos de computación se dediquen a la creación activa de modelos en lugar de estar inactivos durante la transferencia de datos o los restablecimientos de hardware.

Aprendizaje por refuerzo y posterior al entrenamiento eficientes

Escala las cargas de trabajo de aprendizaje por refuerzo de forma eficiente

Integra modelos base en agentes inteligentes mediante flujos de trabajo de posentrenamiento intensivo. La octava generación del sistema de TPUs procesa rápidamente las pruebas de aprendizaje por refuerzo continuo, recompensando las mejores rutas de razonamiento sin los retrasos de ciclo habituales en las generaciones anteriores. Esto te permite ajustar de forma eficiente los modelos del mundo, lo que permite a los agentes perfeccionar su razonamiento en entornos simulados antes de ejecutarlo en el mundo real.

Otros recursos

Escala las cargas de trabajo de aprendizaje por refuerzo de forma eficiente

Integra modelos base en agentes inteligentes mediante flujos de trabajo de posentrenamiento intensivo. La octava generación del sistema de TPUs procesa rápidamente las pruebas de aprendizaje por refuerzo continuo, recompensando las mejores rutas de razonamiento sin los retrasos de ciclo habituales en las generaciones anteriores. Esto te permite ajustar de forma eficiente los modelos del mundo, lo que permite a los agentes perfeccionar su razonamiento en entornos simulados antes de ejecutarlo en el mundo real.

Cargas de trabajo de inferencia de IA a gran escala y con baja latencia

Inferencia rentable y de alto rendimiento

Rompe la barrera de la memoria de inferencia. La TPU 8i amplía la SRAM integrada y la memoria de gran ancho de banda, y aloja cachés clave-valor de gran capacidad íntegramente en el chip. Al usar el motor de aceleración de operaciones colectivas de SparseCore (SC-CAE) para descargar las tareas de comunicación global, esta arquitectura reduce significativamente la latencia en el chip, de modo que libera los núcleos de computación principales para que se dediquen exclusivamente a la generación de tokens de baja latencia.

Otros recursos

Inferencia rentable y de alto rendimiento

Rompe la barrera de la memoria de inferencia. La TPU 8i amplía la SRAM integrada y la memoria de gran ancho de banda, y aloja cachés clave-valor de gran capacidad íntegramente en el chip. Al usar el motor de aceleración de operaciones colectivas de SparseCore (SC-CAE) para descargar las tareas de comunicación global, esta arquitectura reduce significativamente la latencia en el chip, de modo que libera los núcleos de computación principales para que se dediquen exclusivamente a la generación de tokens de baja latencia.

Empieza tu prueba de concepto

Prueba las TPU de Cloud sin coste

Breve introducción al uso de Cloud Storage

Ejecuta PyTorch en TPUs

Ejecutar JAX en TPUs

Servir con vLLM en TPUs

Caso de negocio

Agentes de razonamiento autónomo

Las TPUs proporcionan el ancho de banda de memoria y la inferencia de baja latencia necesarios para ejecutar bucles de razonamiento multipaso continuos para asistentes de programación en tiempo real, servicios de atención al cliente autónomos y operaciones de seguridad.

Modelos fundacionales e IA generativa multimodal

Las TPUs ofrecen una computación continua de alto rendimiento y permiten crear y servir de forma eficiente modelos fundacionales masivos en modalidades de texto, imagen, audio y vídeo.

Ciencia y sanidad de precisión

Las TPUs gestionan operaciones matemáticas complejas con muchas matrices para acelerar las simulaciones computacionalmente intensivas en biología estructural, secuenciación genómica y descubrimiento de fármacos.

IA física

Crea agentes físicos que interactúen con el mundo real y se adapten a él. Simula y entrena robots, agentes autónomos y máquinas industriales de forma más rápida y eficiente con datos sintéticos y del mundo real.

Unidades de procesamiento de tensor (TPUs)

Diseñado para la IA de última generación

Aspectos destacados del producto

Una década de unidades de procesamiento de tensor (TPUs)

Diseñado específicamente para la IA de agentes

Rendimiento sin concesiones

Economía sostenible a gran escala

Operaciones abiertas, flexibles y fiables

Ejecuta cargas de trabajo de la fase anterior al entrenamiento de IA a gran escala

Agiliza el tiempo de lanzamiento de modelos fundacionales

Otros recursos

Agiliza el tiempo de lanzamiento de modelos fundacionales

Aprendizaje por refuerzo y posterior al entrenamiento eficientes

Escala las cargas de trabajo de aprendizaje por refuerzo de forma eficiente

Otros recursos

Escala las cargas de trabajo de aprendizaje por refuerzo de forma eficiente

Cargas de trabajo de inferencia de IA a gran escala y con baja latencia

Inferencia rentable y de alto rendimiento

Otros recursos

Inferencia rentable y de alto rendimiento

Empieza tu prueba de concepto

Prueba las TPU de Cloud sin coste

Breve introducción al uso de Cloud Storage

Ejecuta PyTorch en TPUs

Ejecutar JAX en TPUs

Servir con vLLM en TPUs

Contenido relacionado