Logotipo de AI Hypercomputer

Entrena, ajusta y entrega en una supercomputadora de IA

AI Hypercomputer es el sistema de supercomputación integrado que respalda cada carga de trabajo de IA en Google Cloud. Se compone de hardware, software y modelos de consumo diseñados para simplificar la implementación de IA, mejorar la eficiencia a nivel del sistema y optimizar los costos.

Descripción general

Hardware optimizado para IA

Elige entre opciones de procesamiento, almacenamiento y redes optimizadas para objetivos detallados a nivel de la carga de trabajo, ya sea una capacidad de procesamiento mayor, una latencia más baja, un tiempo de obtención de resultados más rápido o un TCO más bajo. Obtén más información sobre los siguientes temas: TPU de Google Cloud, GPU de Google Cloud, además de las novedades en almacenamiento y redes.

Software líder, frameworks abiertos

Aprovecha al máximo tu hardware con software líder en la industria, integrado con frameworks, bibliotecas y compiladores abiertos para que el desarrollo, la integración y la administración de la IA sean más eficientes.

  • Compatibilidad con PyTorch, JAX, Keras, vLLM, Megatron-LM, NeMo Megatron, MaxText, MaxDiffusion y muchos más.
  • La integración profunda con el compilador XLA permite la interoperabilidad entre diferentes aceleradores, mientras que Pathways on Cloud te permite usar el mismo entorno de ejecución distribuido que impulsa la infraestructura interna de entrenamiento y la inferencia a gran escala de Google.
  • Todo esto se puede implementar en el entorno que elijas, ya sea Google Kubernetes Engine, Cluster Director o Google Compute Engine.

Modelos de consumo flexible

Las opciones de consumo flexible permiten a los clientes elegir costos fijos con descuentos por compromiso de uso o modelos dinámicos según demanda para satisfacer las necesidades empresariales. El programador dinámico de cargas de trabajo y las VMs Spot pueden ayudarte a obtener la capacidad que necesitas sin sobreasignar recursos. Además, las herramientas de optimización de costos de Google Cloud ayudan a automatizar el uso de recursos para reducir las tareas manuales de los ingenieros.

Cómo funciona

Google es uno de los líderes en inteligencia artificial gracias a la invención de tecnologías como TensorFlow. ¿Sabías que puedes aprovechar la tecnología de Google en tus propios proyectos? Conoce la historia de innovación en infraestructura de IA de Google y cómo puedes aprovecharla en tus cargas de trabajo.

Diagrama de arquitectura del hipercomputadora de IA de Google Cloud junto con la foto de la gerente de producto de Google Cloud, Chelsie

Usos comunes

Ejecuta entrenamiento y entrenamiento previo de IA a gran escala

Entrenamiento de IA potente, escalable y eficiente

Las cargas de trabajo de entrenamiento deben ejecutarse como trabajos altamente sincronizados en miles de nodos en clústeres estrechamente acoplados. Un solo nodo degradado puede interrumpir un trabajo completo y retrasar el tiempo de salida al mercado. Realice lo siguiente:

  • Asegúrate de que el clúster se configure rápidamente y se ajuste a la carga de trabajo en cuestión.
  • Predice fallas y soluciona problemas rápidamente.
  • Y continúa con una carga de trabajo, incluso cuando se producen fallas.

Queremos que sea extremadamente fácil para los clientes implementar y escalar cargas de trabajo de entrenamiento en Google Cloud.

    Entrenamiento de IA potente, escalable y eficiente

    Las cargas de trabajo de entrenamiento deben ejecutarse como trabajos altamente sincronizados en miles de nodos en clústeres estrechamente acoplados. Un solo nodo degradado puede interrumpir un trabajo completo y retrasar el tiempo de salida al mercado. Realice lo siguiente:

    • Asegúrate de que el clúster se configure rápidamente y se ajuste a la carga de trabajo en cuestión.
    • Predice fallas y soluciona problemas rápidamente.
    • Y continúa con una carga de trabajo, incluso cuando se producen fallas.

    Queremos que sea extremadamente fácil para los clientes implementar y escalar cargas de trabajo de entrenamiento en Google Cloud.

      Entrenamiento de IA potente, escalable y eficiente

      Para crear un clúster de IA, comienza con uno de nuestros instructivos:

      Character.AI aprovecha Google Cloud para escalar verticalmente

      “Necesitamos GPU para generar respuestas a los mensajes de los usuarios. Y a medida que tenemos más usuarios en nuestra plataforma, necesitamos más GPU para prestarles servicios. En Google Cloud, podemos experimentar para descubrir cuál es la plataforma adecuada para una carga de trabajo en particular. Es estupendo tener esa flexibilidad para elegir las soluciones más valiosas”. Myle Ott, ingeniero fundador, Character.AI

      Implementa y organiza aplicaciones de IA

      Aprovecha el software de organización de IA líder y los frameworks abiertos para ofrecer experiencias potenciadas por IA

      Google Cloud proporciona imágenes que contienen sistemas operativos, frameworks, bibliotecas y controladores comunes. AI Hypercomputer optimiza estas imágenes preconfiguradas para admitir tus cargas de trabajo de IA.

      • Frameworks y bibliotecas de IA y AA: Usa imágenes de Docker de Deep Learning Software Layer (DLSL) para ejecutar modelos de AA, como NeMO y MaxText, en un clúster de Google Kubernetes Engine (GKE).
      • Implementación de clústeres y organización de IA: Puedes implementar tus cargas de trabajo de IA en clústeres de GKE, clústeres de Slurm o instancias de Compute Engine. Para obtener más información, consulta Descripción general de la creación de VMs y clústeres.

      Aprovecha el software de organización de IA líder y los frameworks abiertos para ofrecer experiencias potenciadas por IA

      Google Cloud proporciona imágenes que contienen sistemas operativos, frameworks, bibliotecas y controladores comunes. AI Hypercomputer optimiza estas imágenes preconfiguradas para admitir tus cargas de trabajo de IA.

      • Frameworks y bibliotecas de IA y AA: Usa imágenes de Docker de Deep Learning Software Layer (DLSL) para ejecutar modelos de AA, como NeMO y MaxText, en un clúster de Google Kubernetes Engine (GKE).
      • Implementación de clústeres y organización de IA: Puedes implementar tus cargas de trabajo de IA en clústeres de GKE, clústeres de Slurm o instancias de Compute Engine. Para obtener más información, consulta Descripción general de la creación de VMs y clústeres.

      Explora recursos de software

      Priceline: Ayuda a los viajeros a seleccionar experiencias únicas

      “Trabajar con Google Cloud para incorporar la IA generativa nos permite crear un asistente de viajes personalizado dentro de nuestro chatbot. Queremos ayudar a nuestros clientes no solo a planificar un viaje, sino también a crear una experiencia de viaje única para ellos”. Martin Brodbeck, director de Tecnología, Priceline

      Logotipo de Priceline

      Entrega modelos rentables a gran escala

      Maximiza la relación precio-rendimiento y la confiabilidad para cargas de trabajo de inferencia

      La inferencia se está volviendo más diversa y compleja rápidamente, y está evolucionando en tres áreas principales:

      • En primer lugar, está cambiando la forma en que interactuamos con la IA. Las conversaciones ahora tienen un contexto mucho más largo y diverso.
      • En segundo lugar, el razonamiento sofisticado y la inferencia de varios pasos están haciendo que los modelos de mezcla de expertos (MoE) sean más comunes. Esto redefine cómo se escalan la memoria y el procesamiento desde la entrada inicial hasta la salida final.
      • Por último, queda claro que el valor real no se trata solo de tokens brutos por dólar, sino de la utilidad de la respuesta. ¿Tiene el modelo la experiencia adecuada? ¿Respondió correctamente una pregunta empresarial fundamental? Por eso, creemos que los clientes necesitan mejores mediciones, que se enfoquen en el costo total de las operaciones del sistema, no en el precio de sus procesadores.

      Maximiza la relación precio-rendimiento y la confiabilidad para cargas de trabajo de inferencia

      La inferencia se está volviendo más diversa y compleja rápidamente, y está evolucionando en tres áreas principales:

      • En primer lugar, está cambiando la forma en que interactuamos con la IA. Las conversaciones ahora tienen un contexto mucho más largo y diverso.
      • En segundo lugar, el razonamiento sofisticado y la inferencia de varios pasos están haciendo que los modelos de mezcla de expertos (MoE) sean más comunes. Esto redefine cómo se escalan la memoria y el procesamiento desde la entrada inicial hasta la salida final.
      • Por último, queda claro que el valor real no se trata solo de tokens brutos por dólar, sino de la utilidad de la respuesta. ¿Tiene el modelo la experiencia adecuada? ¿Respondió correctamente una pregunta empresarial fundamental? Por eso, creemos que los clientes necesitan mejores mediciones, que se enfoquen en el costo total de las operaciones del sistema, no en el precio de sus procesadores.

      Explora recursos de inferencia de IA

        AssemblyAI usa Google Cloud para la rentabilidad

        “Los resultados experimentales muestran que Cloud TPU v5e es el acelerador más rentable para ejecutar inferencias a gran escala para nuestro modelo. Ofrece un rendimiento 2.7 veces mayor por dólar que G2 y un rendimiento 4.2 veces mayor por dólar que las instancias de A2”. Domenic Donato,

        vicepresidente de Tecnología, AssemblyAI


        Logotipo de AssemblyAI
        Genera una solución
        ¿Qué problema intentas resolver?
        What you'll get:
        Guía paso a paso
        Arquitectura de referencia
        Soluciones previamente compiladas disponibles
        Este servicio se creó con Vertex AI. Debes ser mayor de 18 años para usarlo. No ingreses información sensible, confidencial ni personal.

        Modelos de código abierto en Google Cloud

        Entrega un modelo con GKE en una sola GPU

        Entrena modelos comunes con GPU

        Escala la entrega de modelos a varias GPU

        Entrega un LLM con TPU de varios hosts en GKE con Saxml

        Entrena a gran escala con el framework NVIDIA Nemo

        Preguntas frecuentes

        ¿Es AI Hypercomputer la forma más fácil de comenzar a usar cargas de trabajo de IA en Google Cloud?

        Para la mayoría de los clientes, una plataforma de IA administrada como Vertex AI es la forma más fácil de comenzar a usar la IA, ya que tiene todas las herramientas, plantillas y modelos integrados. Además, Vertex AI está impulsado por AI Hypercomputer de forma interna, de una manera optimizada en tu nombre. Vertex AI es la forma más fácil de comenzar porque ofrece la experiencia más sencilla. Si prefieres configurar y optimizar cada componente de tu infraestructura, puedes acceder a los componentes de AI Hypercomputer como infraestructura y ensamblarlos de una manera que satisfaga tus necesidades.

        Si bien los servicios individuales ofrecen capacidades específicas, AI Hypercomputer proporciona un sistema integrado en el que el hardware, el software y los modelos de consumo están diseñados para funcionar de manera óptima en conjunto. Esta integración ofrece eficiencias a nivel del sistema en rendimiento, costo y tiempo de salida al mercado que son más difíciles de lograr uniendo servicios dispares. Simplifica la complejidad y proporciona un enfoque integral de la infraestructura de IA.



        Sí, AI Hypercomputer se diseñó pensando en la flexibilidad. Las tecnologías como Cross-Cloud Interconnect proporcionan conectividad de alto ancho de banda a centros de datos locales y otras nubes, lo que facilita las estrategias de IA híbrida y de múltiples nubes. Operamos con estándares abiertos y, además, integramos software popular de terceros para que puedas crear soluciones que abarquen varios entornos y cambiar los servicios cuando quieras.

        La seguridad es un aspecto fundamental de AI Hypercomputer. Se beneficia del modelo de seguridad de varias capas de Google Cloud. Las funciones específicas incluyen microcontroladores de seguridad Titan (que garantizan que los sistemas se inicien desde un estado de confianza), firewall RDMA (para redes de confianza cero entre TPU y GPU durante el entrenamiento) y la integración con soluciones como Model Armor para la seguridad de la IA. Estos se complementan con políticas y principios sólidos de seguridad de la infraestructura, como el Secure AI Framework.

        • Si no quieres administrar VMs, te recomendamos comenzar con Google Kubernetes Engine (GKE).
        • Si necesitas usar varios programadores o no puedes usar GKE, te recomendamos usar Cluster Director
        • Si quieres tener un control completo sobre tu infraestructura, la única forma de lograrlo es trabajar directamente con VMs, y para eso, Google Compute Engine es tu mejor opción.


        No. AI Hypercomputer se puede usar para cargas de trabajo de cualquier tamaño. Las cargas de trabajo de menor tamaño aún aprovechan todos los beneficios de un sistema integrado, como la eficiencia y la implementación simplificada. AI Hypercomputer también ayuda a los clientes a medida que sus empresas crecen, desde pequeñas pruebas de concepto y experimentos hasta implementaciones de producción a gran escala.

        Sí, estamos creando una biblioteca de recetas en GitHub. También puedes usar Cluster Toolkit para obtener planos de clústeres prediseñados.

        Hardware optimizado para IA

        Almacenamiento

        • Entrenamiento: Managed Lustre es ideal para el entrenamiento de IA exigente con alta capacidad de procesamiento y capacidad a escala de PB. GCS Fuse (opcionalmente con Anywhere Cache) se adapta a necesidades de mayor capacidad con latencia más relajada. Ambos se integran en GKE y Cluster Director.
        • Inferencia: GCS Fuse con Anywhere Cache ofrece una solución sencilla. Para obtener un mayor rendimiento, considera Hyperdisk ML. Si se usa Managed Lustre para el entrenamiento en la misma zona, también se puede usar para la inferencia.

        Redes

        • Entrenamiento: Aprovecha tecnologías como las redes RDMA en VPC y Cloud Interconnect y Cross-Cloud Interconnect de alto ancho de banda para una transferencia de datos rápida.
        • Inferencia: Utiliza soluciones como la puerta de enlace de inferencia de GKE y Cloud Load Balancing mejorado para la entrega con baja latencia. Model Armor puede integrarse para la seguridad de la IA.

        Procesamiento: Accede a las TPU de Google Cloud (Trillium), las GPU de NVIDIA (Blackwell) y las CPU (Axion). Esto permite la optimización en función de las necesidades específicas de la carga de trabajo para la capacidad de procesamiento, la latencia o el TCO.

        Software y frameworks abiertos líderes

        • Frameworks y bibliotecas de AA: PyTorch, JAX, TensorFlow, Keras, vLLM, JetStream, MaxText, LangChain, Hugging Face, NVIDIA (CUDA, NeMo, Triton) y muchas más opciones de código abierto y de terceros.
        • Compiladores, tiempos de ejecución y herramientas: XLA (para rendimiento e interoperabilidad), Pathways on Cloud, entrenamiento de Multislice, Cluster Toolkit (para planos de clústeres prediseñados) y muchas más opciones de código abierto y de terceros.
        • Organización: Google Kubernetes Engine (GKE), Cluster Director (para Slurm, Kubernetes no administrado, programadores BYO) y Google Compute Engine (GCE).

        Modelos de consumo:

        • A pedido: Pago por uso.
        • Descuentos por compromiso de uso (CUD): Ahorra significativamente (hasta un 70%) con compromisos a largo plazo.
        • VMs Spot: Son ideales para trabajos por lotes tolerantes a errores y ofrecen grandes descuentos (hasta un 91%).
        • Programador dinámico de cargas de trabajo (DWS): Ahorra hasta un 50% en trabajos por lotes o tolerantes a errores.
        Google Cloud