Hardware, software y consumo optimizados con IA para mejorar la productividad y la eficiencia.
Información general
Nuestra infraestructura con optimización del rendimiento, que incluye las TPU de Google Cloud, la GPU de Google Cloud, Google Cloud Storage y la red de Jupiter subyacente de forma coherente proporciona un tiempo más rápido para entrenar modelos de vanguardia a gran escala debido a las sólidas características de escalado de la arquitectura que ofrecen la mejor relación precio-rendimiento para servir modelos grandes.
Nuestra arquitectura está optimizada para admitir las herramientas y bibliotecas más habituales, como Tensorflow, Pytorch y JAX. Además, permite a los clientes beneficiarse de tecnologías como las configuraciones de TPU de Cloud Multislice y Multihost y servicios gestionados como Google Kubernetes Engine. De esta forma, los clientes pueden desplegar cargas de trabajo habituales de forma inmediata, como el framework NVIDIA NeMO orquestado por SLURM.
Nuestros modelos de consumo flexibles permiten a los clientes elegir costes fijos con descuentos por compromiso de uso o modelos dinámicos bajo demanda en función de las necesidades de su negocio.Gracias a Dynamic Workload Scheduler, los clientes pueden obtener la capacidad que necesitan sin tener que asignar demasiadas tareas para que paguen solo por lo que necesitan.Además, las herramientas de optimización de costes de Google Cloud ayudan a automatizar el uso de recursos para reducir las tareas manuales de los ingenieros.
Cómo funciona
Google es líder en inteligencia artificial gracias a la invención de tecnologías como TensorFlow. ¿Sabías que puedes aprovechar la tecnología de Google en tus propios proyectos? Descubre la historia de Google en materia de innovación en infraestructura de IA y cómo puedes aprovecharla para tus cargas de trabajo.
Usos habituales
El entrenamiento Multislice de la TPU de Cloud es una tecnología full stack que permite entrenar modelos de IA a gran escala de forma rápida, sencilla y fiable en decenas de miles de chips de TPUs.
"Necesitamos GPUs para generar respuestas a los mensajes de los usuarios. Además, cuantos más usuarios lleguen a nuestra plataforma, necesitaremos más GPUs para ofrecer sus servicios. Por ello, en Google Cloud podemos experimentar para encontrar la plataforma adecuada para una carga de trabajo concreta. Es fantástico tener esa flexibilidad para elegir qué soluciones son más valiosas". Myle Ott, ingeniero fundador de Character.AI
El entrenamiento Multislice de la TPU de Cloud es una tecnología full stack que permite entrenar modelos de IA a gran escala de forma rápida, sencilla y fiable en decenas de miles de chips de TPUs.
"Necesitamos GPUs para generar respuestas a los mensajes de los usuarios. Además, cuantos más usuarios lleguen a nuestra plataforma, necesitaremos más GPUs para ofrecer sus servicios. Por ello, en Google Cloud podemos experimentar para encontrar la plataforma adecuada para una carga de trabajo concreta. Es fantástico tener esa flexibilidad para elegir qué soluciones son más valiosas". Myle Ott, ingeniero fundador de Character.AI
El ecosistema de software libre de Google Cloud te permite desarrollar aplicaciones con las herramientas y los frameworks que más te gustan, al tiempo que aprovechas las ventajas de la relación precio-rendimiento que ofrece la arquitectura hiperordenador de IA.
"Trabajar con Google Cloud para incorporar la IA generativa nos permite crear un servicio de conserjería de viajes a medida en nuestro bot de chat. Queremos que nuestros clientes no solo planteen viajes, sino que les ayuden a personalizar su experiencia de viaje única". Martin Brodbeck, director de tecnología de Priceline
El ecosistema de software libre de Google Cloud te permite desarrollar aplicaciones con las herramientas y los frameworks que más te gustan, al tiempo que aprovechas las ventajas de la relación precio-rendimiento que ofrece la arquitectura hiperordenador de IA.
"Trabajar con Google Cloud para incorporar la IA generativa nos permite crear un servicio de conserjería de viajes a medida en nuestro bot de chat. Queremos que nuestros clientes no solo planteen viajes, sino que les ayuden a personalizar su experiencia de viaje única". Martin Brodbeck, director de tecnología de Priceline
Las instancias de VM de la versión 5e y G2 de TPU de Cloud que ofrecen GPUs NVIDIA L4 permiten obtener inferencias de alto rendimiento y rentables en una amplia variedad de cargas de trabajo de IA, incluidos los LLMs y los modelos de IA generativa más recientes. Ambos ofrecen importantes mejoras en el rendimiento de los precios con respecto a modelos anteriores, y la arquitectura hiperordenador de IA de Google Cloud permite a los clientes escalar sus despliegues a niveles líderes del sector.
"Nuestros resultados experimentales muestran que la versión 5e de TPU de Cloud es el acelerador más rentable para ejecutar inferencias a gran escala en nuestro modelo. Ofrece 2,7 veces más rendimiento por dólar que G2 y 4,2 veces más rendimiento por dólar que las instancias A2". Domenic Donato,
Vicepresidente de Tecnología de AssemblyAI
Las instancias de VM de la versión 5e y G2 de TPU de Cloud que ofrecen GPUs NVIDIA L4 permiten obtener inferencias de alto rendimiento y rentables en una amplia variedad de cargas de trabajo de IA, incluidos los LLMs y los modelos de IA generativa más recientes. Ambos ofrecen importantes mejoras en el rendimiento de los precios con respecto a modelos anteriores, y la arquitectura hiperordenador de IA de Google Cloud permite a los clientes escalar sus despliegues a niveles líderes del sector.
"Nuestros resultados experimentales muestran que la versión 5e de TPU de Cloud es el acelerador más rentable para ejecutar inferencias a gran escala en nuestro modelo. Ofrece 2,7 veces más rendimiento por dólar que G2 y 4,2 veces más rendimiento por dólar que las instancias A2". Domenic Donato,
Vicepresidente de Tecnología de AssemblyAI