Unidades de procesamiento tensorial (TPU)

Diseñado para la IA de nueva generación

Crea, optimiza y escala cargas de trabajo de entrenamiento, inferencia y aprendizaje por refuerzo para potenciar agentes de razonamiento autónomo 

Descripción general

Una década de unidades de procesamiento tensorial (TPU)

Las TPUs son aceleradores con diseño personalizado creados específicamente para cargas de trabajo de IA, como agentes, generación de código, modelos de lenguaje grandes, generación de contenido multimedia, voz sintética, servicios de visión, motores de recomendaciones y modelos de personalización, entre otros. Las TPUs impulsan Gemini y todas las aplicaciones potenciadas por IA de Google, como la Búsqueda, Fotos y Maps, que sirven a más de 1,000 millones de usuarios.

Diseñado específicamente para la IA de agentes

El cambio a la IA de agentes requiere una infraestructura capaz de razonamiento de varios pasos y aprendizaje por refuerzo continuo. Las TPUs rompen la "barrera de memoria" de la inferencia alojando cachés de KV masivas completamente en el chip, utilizando SRAM expandida en el chip con TPU 8i. En combinación con nuestro motor SparseCore para descargar tareas de comunicación, esta arquitectura reduce el tiempo de inactividad del núcleo. El resultado es un rendimiento predecible y de baja latencia que impulsa los bucles de razonamiento complejos.

Rendimiento sin concesiones

Acelera el tiempo de implementación reduciendo los plazos de entrenamiento de los modelos de frontera. Las Cloud TPUs maximizan el rendimiento útil, lo que garantiza que casi todos los ciclos de procesamiento se dediquen al aprendizaje activo. Esto se admite con una interconexión entre chips de alta velocidad, conmutación de circuitos ópticos y la red Virgo, por lo que los aceleradores operan como un sistema unificado y altamente confiable.

Economía sustentable a gran escala

Las TPUs están diseñadas para mejorar el valor y el consumo de energía enfocándose en las demandas computacionales de la IA, lo que elimina la sobrecarga operativa que se encuentra en las arquitecturas multipropósit.o La administración de energía integrada se ajusta de forma dinámica al volumen de solicitudes en tiempo real, lo que ofrece un alto rendimiento por vatio y admite cargas de trabajo complejas de IA de forma sustentable.

Operaciones abiertas, flexibles y confiables

Crea en un ecosistema abierto con bibliotecas y herramientas conocidas. Las Cloud TPUs proporcionan compatibilidad nativa de alto rendimiento para PyTorch y JAX, y admiten el motor vLLM para una inferencia rápida. Administra y escala estas implementaciones de manera confiable en clústeres globales con Google Kubernetes Engine (GKE).

Versiones de Cloud TPU

Versión de Cloud TPUDescripciónDisponibilidad

TPU 8i

La TPU 8i está optimizada para la inferencia y el entrenamiento posterior, y proporciona una mejora del 80% en el rendimiento por dólar en comparación con las generaciones anteriores para la inferencia de baja latencia para modelos MoE grandes.

Próximamente

TPU 8t

La TPU 8t está diseñada para el entrenamiento previo a gran escala y las cargas de trabajo con muchos embeddings a una escala de 9,600 chips en un solo superpod, y proporciona una mejora de hasta 2.7 veces en el rendimiento por dólar en comparación con Ironwood para el entrenamiento a gran escala.

Próximamente

Ironwood

TPU de 7ª generación con eficiencia energética diseñada para entrenamiento, razonamiento e inferencia a gran escala. Cuenta con 9,216 chips refrigerados por líquido por Pod, proporciona 42.5 ExaFlops y un rendimiento por chip 4 veces mejor que Trillium.

Ironwood está disponible de forma general en Norteamérica (Central) y Europa (región occidental)

Trillium

TPU de sexta generación con eficiencia energética mejorada y rendimiento máximo de procesamiento para entrenamiento e inferencia. Funciona con un 67% más de eficiencia energética y proporciona un rendimiento de procesamiento máximo 4.7 veces mayor por chip en comparación con la TPU v5e de la generación anterior.

Trillium está disponible de forma general en Norteamérica (región oriental de EE.UU.), Europa (región occidental) y Asia (región nororiental)

Información adicional sobre las versiones de Cloud TPU

TPU 8i

Descripción

La TPU 8i está optimizada para la inferencia y el entrenamiento posterior, y proporciona una mejora del 80% en el rendimiento por dólar en comparación con las generaciones anteriores para la inferencia de baja latencia para modelos MoE grandes.

Disponibilidad

Próximamente

TPU 8t

Descripción

La TPU 8t está diseñada para el entrenamiento previo a gran escala y las cargas de trabajo con muchos embeddings a una escala de 9,600 chips en un solo superpod, y proporciona una mejora de hasta 2.7 veces en el rendimiento por dólar en comparación con Ironwood para el entrenamiento a gran escala.

Disponibilidad

Próximamente

Ironwood

Descripción

TPU de 7ª generación con eficiencia energética diseñada para entrenamiento, razonamiento e inferencia a gran escala. Cuenta con 9,216 chips refrigerados por líquido por Pod, proporciona 42.5 ExaFlops y un rendimiento por chip 4 veces mejor que Trillium.

Disponibilidad

Ironwood está disponible de forma general en Norteamérica (Central) y Europa (región occidental)

Trillium

Descripción

TPU de sexta generación con eficiencia energética mejorada y rendimiento máximo de procesamiento para entrenamiento e inferencia. Funciona con un 67% más de eficiencia energética y proporciona un rendimiento de procesamiento máximo 4.7 veces mayor por chip en comparación con la TPU v5e de la generación anterior.

Disponibilidad

Trillium está disponible de forma general en Norteamérica (región oriental de EE.UU.), Europa (región occidental) y Asia (región nororiental)

Información adicional sobre las versiones de Cloud TPU

Cómo funciona

Descubre la magia de las Google Cloud TPUs, incluida una vista inusual de los centros de datos. Los clientes usan las Cloud TPUs para ejecutar algunas de las cargas de trabajo de IA a gran escala, y esa capacidad proviene de mucho más que un chip. En este video, observarás los componentes del sistema de TPU, incluidas las redes de los centros de datos, los interruptores de circuitos ópticos, los sistemas de enfriamiento de agua, la verificación de seguridad biométrica y mucho más.


Reemplazar con el video de TPU.
Usos comunes

Ejecuta cargas de trabajo de entrenamiento previo de IA a gran escala

Acelera el tiempo de salida al mercado de modelos de vanguardia

Reduce los plazos de entrenamiento previo para modelos de base masivos. La TPU 8t proporciona potencia de conmutación de alto rendimiento en un solo pod y se escala a través de la red Virgo. En combinación con el acceso rápido al almacenamiento y el aislamiento NUMA potenciado por Axion, la arquitectura logra un alto rendimiento útil, lo que garantiza que los ciclos de procesamiento se dediquen a la creación activa de modelos en lugar de estar inactivos durante la transferencia de datos o los restablecimientos de hardware.

Acelera el tiempo de salida al mercado de modelos de vanguardia

Reduce los plazos de entrenamiento previo para modelos de base masivos. La TPU 8t proporciona potencia de conmutación de alto rendimiento en un solo pod y se escala a través de la red Virgo. En combinación con el acceso rápido al almacenamiento y el aislamiento NUMA potenciado por Axion, la arquitectura logra un alto rendimiento útil, lo que garantiza que los ciclos de procesamiento se dediquen a la creación activa de modelos en lugar de estar inactivos durante la transferencia de datos o los restablecimientos de hardware.

Aprendizaje por refuerzo y posterior al entrenamiento eficiente

Escala las cargas de trabajo de aprendizaje por refuerzo de manera eficiente

Crea modelos base en agentes inteligentes a través de flujos de trabajo intensivos posteriores al entrenamiento. La 8ª generación del sistema TPU procesa rápidamente pruebas continuas de aprendizaje por refuerzo, recompensando las mejores rutas de razonamiento sin los retrasos de ciclo comunes en las generaciones anteriores. Esto te permite ajustar de manera eficiente los modelos del mundo, lo que permite a los agentes refinar su razonamiento en entornos simulados antes de ejecutarlo en el mundo real.


Escala las cargas de trabajo de aprendizaje por refuerzo de manera eficiente

Crea modelos base en agentes inteligentes a través de flujos de trabajo intensivos posteriores al entrenamiento. La 8ª generación del sistema TPU procesa rápidamente pruebas continuas de aprendizaje por refuerzo, recompensando las mejores rutas de razonamiento sin los retrasos de ciclo comunes en las generaciones anteriores. Esto te permite ajustar de manera eficiente los modelos del mundo, lo que permite a los agentes refinar su razonamiento en entornos simulados antes de ejecutarlo en el mundo real.


Cargas de trabajo de inferencia de IA de baja latencia a gran escala

Inferencia de alto rendimiento y rentable

Rompe la barrera de la memoria de inferencia. La TPU 8i expande la SRAM en chip y la memoria de alto ancho de banda, lo que permite alojar cachés KV de alta capacidad completamente en el silicio. Con el motor de aceleración de colectivos SparseCore (SC-CAE) para descargar tareas de comunicación global, esta arquitectura reduce significativamente la latencia en el chip, lo que libera los núcleos de procesamiento principales para la generación de tokens pura y de baja latencia.

Inferencia de alto rendimiento y rentable

Rompe la barrera de la memoria de inferencia. La TPU 8i expande la SRAM en chip y la memoria de alto ancho de banda, lo que permite alojar cachés KV de alta capacidad completamente en el silicio. Con el motor de aceleración de colectivos SparseCore (SC-CAE) para descargar tareas de comunicación global, esta arquitectura reduce significativamente la latencia en el chip, lo que libera los núcleos de procesamiento principales para la generación de tokens pura y de baja latencia.

Comienza tu prueba de concepto

Prueba Cloud TPU gratis

Obtén una introducción breve al uso de Cloud TPU

Ejecuta PyTorch en TPU

Ejecuta JAX en TPU

Entrega con vLLM en TPUs

Caso empresarial


Agentes de razonamiento autónomo

Las TPU proporcionan el ancho de banda de memoria y la inferencia de baja latencia necesarios para ejecutar bucles de razonamiento continuos y de varios pasos para asistentes de programación en tiempo real, atención al cliente autónoma y operaciones de seguridad.

Modelos de base y la IA generativa multimodal

Las TPU, que ofrecen computación continua con alta capacidad de procesamiento, crean y entregan de manera eficiente modelos de base masivos en modalidades de texto, imagen, audio y video.

Ciencia y atención médica de precisión

Las TPU administran matemáticas complejas y con muchas matrices para acelerar simulaciones de procesamiento intensivas para biología estructural, secuenciación genómica y descubrimiento de fármacos.



IA física

Crea agentes físicos que interactúen con el mundo real y se adapten a él. Simula y entrena robots, agentes autónomos y máquinas industriales de forma más rápida y eficiente con datos sintéticos y del mundo real.

Google Cloud