AI Hypercomputer

Alimenter l'ère de l'inférence avec les TPU Ironwood et les nouvelles VM basées sur Axion.

Entraînez, réglez et mettez en service des modèles sur un superordinateur d'IA

AI Hypercomputer est le système de calcul intensif intégré qui sous-tend chaque charge de travail d'IA sur Google Cloud. Il se compose de modèles de matériel, de logiciels et de consommation conçus pour simplifier le déploiement de l'IA, améliorer l'efficacité au niveau du système et optimiser les coûts.

Guide : Nos quatre principaux cas d'utilisation, architectures de référence et tutoriels pour AI Hypercomputer

Notes de version

Présentation

Matériel optimisé par l'IA

Faites votre choix parmi des options de calcul (y compris des accélérateurs d'IA), de stockage et de gestion de réseaux optimisées pour remplir des objectifs précis au niveau des charges de travail, qu'il s'agisse d'augmenter le débit, de réduire la latence, d'accélérer le délai d'obtention des résultats ou de diminuer le coût total de possession. En savoir plus sur les Cloud TPU, les GPU Cloud, ainsi que sur les dernières nouveautés en matière de stockage et de gestion de réseaux

Annonce : Anthropic va étendre son utilisation des services et des TPU Google Cloud

Anthropic a annoncé son intention d'accéder à un million de TPU pour entraîner et déployer les modèles Claude, ce qui représente des dizaines de milliards de dollars. Anthropic a choisi les TPU en raison de leur rapport prix/performances et de leur efficacité.

Lire le communiqué de presse

Logiciels de pointe, frameworks ouverts

Exploitez tout le potentiel de votre matériel grâce à des logiciels de pointe intégrés à des frameworks, des bibliothèques et des compilateurs ouverts pour rendre le développement, l'intégration et la gestion de l'IA plus efficaces.

Compatible avec PyTorch, JAX, Keras, vLLM, Megatron-LM, NeMo Megatron, MaxText, MaxDiffusion et bien d'autres.
L'intégration étroite avec le compilateur XLA permet l'interopérabilité entre différents accélérateurs, tandis que Pathways on Cloud vous permet d'utiliser le même environnement d'exécution distribué que celui qui alimente l'infrastructure interne d'entraînement et d'inférence à grande échelle de Google.
Vous pouvez déployer tout cela dans l'environnement de votre choix, qu'il s'agisse de Google Kubernetes Engine, de Cluster Director ou de Google Compute Engine.

Vidéo : écoutez les témoignages de Moloco, LG et Shopify

Découvrez comment ils exploitent les solutions d'IA de Google Cloud pour stimuler l'innovation et transformer leurs activités

Regarder à la demande

Modèles de consommation flexibles

Les options de consommation flexibles permettent aux clients de choisir des coûts fixes avec des remises sur engagement d'utilisation ou des modèles dynamiques à la demande pour répondre aux besoins de leur entreprise.Le programmeur de charge de travail dynamique et les VM Spot peuvent vous aider à obtenir la capacité dont vous avez besoin, sans surallouer les ressources.De plus, les outils d'optimisation des coûts de Google Cloud permettent d'automatiser l'utilisation des ressources afin de réduire les tâches manuelles des ingénieurs.

Mises à jour du programmeur de charge de travail dynamique

Lisez cet article de blog pour découvrir les dernières nouveautés concernant le programmeur de charge de travail dynamique et d'autres mises à jour liées à AI Hypercomputer.

Consulter le blog

Fonctionnement

Dans cette présentation issue de l'AI Infra Summit 2025, un responsable de Google Cloud explique les prochaines étapes pour les fondations de l'IA et explique comment utiliser AI Hypercomputer pour l'inférence. Il décrit également les dernières bonnes pratiques technologiques que vous pouvez appliquer dès aujourd'hui.

Utilisations courantes

Mettre en service des modèles à grande échelle de façon économique

Maximisez le rapport prix/performances et la fiabilité pour les charges de travail d'inférence

L'inférence devient rapidement plus diverse et complexe, et évolue dans trois domaines principaux :

Tout d'abord, notre façon d'interagir avec l'IA est en train de changer. Les conversations ont désormais un contexte beaucoup plus long et diversifié.
Deuxièmement, les modèles MoE (Mixture-of-Experts) sont de plus en plus courants en raison de leur capacité à effectuer des inférences sophistiquées en plusieurs étapes. Cela redéfinit la façon dont la mémoire et le calcul évoluent, de l'entrée initiale jusqu'à la sortie finale.
Enfin, il est clair que la valeur réelle ne se limite pas au nombre brut de jetons par dollar, mais qu'elle dépend aussi de la pertinence de la réponse. Le modèle possède-t-il les bonnes compétences ? A-t-il répondu correctement à une question commerciale cruciale ? C'est pourquoi nous pensons que les clients ont besoin de meilleures mesures, axées sur le coût total des opérations système, et non sur le prix de leurs processeurs.

Guides pratiques

Maximisez le rapport prix/performances et la fiabilité pour les charges de travail d'inférence

L'inférence devient rapidement plus diverse et complexe, et évolue dans trois domaines principaux :

Tout d'abord, notre façon d'interagir avec l'IA est en train de changer. Les conversations ont désormais un contexte beaucoup plus long et diversifié.
Deuxièmement, les modèles MoE (Mixture-of-Experts) sont de plus en plus courants en raison de leur capacité à effectuer des inférences sophistiquées en plusieurs étapes. Cela redéfinit la façon dont la mémoire et le calcul évoluent, de l'entrée initiale jusqu'à la sortie finale.
Enfin, il est clair que la valeur réelle ne se limite pas au nombre brut de jetons par dollar, mais qu'elle dépend aussi de la pertinence de la réponse. Le modèle possède-t-il les bonnes compétences ? A-t-il répondu correctement à une question commerciale cruciale ? C'est pourquoi nous pensons que les clients ont besoin de meilleures mesures, axées sur le coût total des opérations système, et non sur le prix de leurs processeurs.

Autres ressources

Explorer les ressources sur l'inférence dans l'IA

Qu'est-ce que l'inférence de l'IA ? Notre guide complet sur les types, les comparaisons et les cas d'utilisation
Exécutez des recettes d'inférence selon les bonnes pratiques avec le guide de démarrage rapide de l'inférence GKE.
Suivez un cours sur l'inférence de l'IA sur Cloud Run.
Regardez cette vidéo sur le secret d'une inférence de l'IA économique
Découvrez comment accélérer les charges de travail des inférences de l'IA

Témoignages de clients

L'IA permet aux fans de sport de créer des maillots

La marque PUMA s'est associée à Google Cloud pour son infrastructure d'IA intégrée (AI Hypercomputer), ce qui lui a permis d'utiliser Gemini pour les requêtes des utilisateurs, ainsi que le programmeur de charge de travail dynamique pour mettre à l'échelle l'inférence sur les GPU de manière dynamique, réduisant ainsi considérablement les coûts et le temps de génération.

Impact :

Ils ont réduit le temps de génération des maillots en IA, passant de 2 à 5 minutes à seulement 30 secondes. La plate-forme s'est ainsi transformée en une expérience rapide et véritablement interactive qui a su maintenir l'engagement des utilisateurs.
En seulement 10 jours, les fans ont créé 180 000 maillots et attribué 1,7 million de notes.
Ce projet a permis à PUMA de créer du lien avec sa communauté d'une manière inédite. Cela a dépassé la simple relation entre une marque et ses consommateurs en transformant ses fans en cocréateurs actifs. L'entreprise a ainsi pu obtenir des informations directes et en temps réel sur les désirs créatifs de ses clients les plus passionnés.

Nouvelle approche : avec AI Creator, les fans de PUMA peuvent concevoir des maillots qu'ils pourront porter

Exécutez des entraînements et des pré-entraînements d'IA à grande échelle

Entraînement d'IA performant, évolutif et efficace

Les charges de travail d'entraînement doivent s'exécuter en tant que jobs hautement synchronisés sur des milliers de nœuds dans des clusters fortement couplés. Un seul nœud dégradé peut perturber l'ensemble d'un job, ce qui retarde le délai de mise sur le marché. Vos tâches sont les suivantes :

S'assurer que le cluster est configuré rapidement et adapté à la charge de travail en question
Prédire les défaillances et les résoudre rapidement
Poursuivre l'exécution d'une charge de travail, même en cas de défaillance

Nous voulons que les clients puissent déployer et effectuer le scaling des charges de travail d'entraînement sur Google Cloud de façon extrêmement simple.