Documentation sur l'orchestration IA/ML sur GKE

Gemma, la nouvelle famille de modèles ouverts de Google DeepMind, est disponible sur GKE.

Cette page a été traduite par l'API Cloud Translation.

Accueil
Documentation
Orchestration IA/ML sur GKE

Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Exécutez des charges de travail d'IA/de ML optimisées grâce aux fonctionnalités d'orchestration de plates-formes de Google Kubernetes Engine (GKE). Avec Google Kubernetes Engine (GKE), vous pouvez implémenter une plate-forme d'IA et de ML robuste et prête pour la production avec tous les avantages de Kubernetes géré et les fonctionnalités suivantes :

Orchestration de l'infrastructure compatible avec les GPU et les TPU pour les charges de travail d'entraînement et de diffusion à grande échelle
Intégration flexible aux frameworks de traitement des données et de calcul distribué
Prise en charge de plusieurs équipes sur la même infrastructure afin d'optimiser l'utilisation des ressources

Cette page présente les fonctionnalités d'IA/ML de GKE et explique comment exécuter des charges de travail d'IA/ML optimisées sur GKE avec des GPU, des TPU et des frameworks tels que Hugging Face TGI, vLLM et JetStream.

Essai gratuit

Démarrez votre preuve de concept avec 300 $de crédit offerts

Accédez à Gemini 2.0 Flash Thinking
Utilisation mensuelle gratuite de produits populaires, y compris les API d'IA et BigQuery
Aucuns frais automatiques, aucun engagement

Afficher les offres produit gratuites.

Continuez à explorer le monde avec plus de 20 produits toujours gratuits

Accédez à plus de 20 produits gratuits pour des cas d'utilisation courants, y compris des API d'IA, des VM, des entrepôts de données, et plus encore.

Ressources de documentation

Consultez des guides de démarrage rapide, des guides et des documents de référence clés, et obtenez de l'aide pour résoudre les problèmes courants.

info

Diffuser des modèles ouverts sur GKE

NOUVEAU !

Diffuser des LLM tels que Deepseek-R1 671B ou Llama 3.1 405B sur GKE
NOUVEAU !

Diffuser un LLM à l'aide de TPU sur GKE avec KubeRay
Tutoriel

Diffuser un LLM à l'aide de TPU Trillium sur GKE avec vLLM
Tutoriel

Guide de démarrage rapide: Diffuser un LLM à l'aide d'un seul GPU sur GKE
Tutoriel

Diffuser Gemma à l'aide de GPU sur GKE avec Hugging Face TGI
Tutoriel

Diffuser Gemma à l'aide de GPU sur GKE avec vLLM

info

Orchestrer les TPU et les GPU à grande échelle

NOUVEAU !

Optimiser l'utilisation des ressources GKE pour les charges de travail d'entraînement et d'inférence mixtes d'IA/ML
Vidéo

Présentation des Cloud TPU pour le machine learning
Vidéo

Créer des modèles de machine learning à grande échelle dans Cloud TPU avec GKE
Vidéo

Diffuser des grands modèles de langage avec KubeRay sur TPU
Blog

Machine learning à l'aide de JAX sur Kubernetes avec des GPU NVIDIA

info

Optimisation des coûts et orchestration des jobs

NOUVEAU !

Architecture de référence pour une plate-forme de traitement par lot sur GKE
Blog

Stockage de modèles d'IA et de ML hautes performances grâce à la compatibilité avec les disques SSD locaux sur GKE
Blog

Simplifier le MLOps à l'aide des pondérations et des biais avec Google Kubernetes Engine
Bonne pratique

Bonnes pratiques pour l'exécution de charges de travail par lot sur GKE
Bonne pratique

Exécuter des applications Kubernetes à coût maîtrisé sur GKE
Bonne pratique

Améliorer le temps de lancement de Stable Diffusion sur GKE par quatre

Ressources associées

Formation et tutoriels

Cas d'utilisation

Exemples de code

Explorez les auto-formations de Google Cloud Skills Boost, des cas d'utilisation, des architectures de référence et des exemples de code illustrant comment utiliser et se connecter à des Google Cloud services.

Formation

Formation et tutoriels

Diffuser des modèles Open Source à l'aide de TPU sur GKE avec Optimum TPU

Découvrez comment déployer des LLM à l'aide de TPU (Tensor Processing Units) sur GKE avec le framework de diffusion TPU optimal de Hugging Face.

Formation

Formation et tutoriels

Créer et utiliser un volume basé sur une instance Parallelstore dans GKE

Découvrez comment créer du stockage avec des instances Parallelstore entièrement gérées et y accéder en tant que volumes. Le pilote CSI est optimisé pour les charges de travail d'entraînement AI/ML impliquant des tailles de fichiers plus petites et des lectures aléatoires.

Formation

Formation et tutoriels

Accélération du chargement des données d'IA/ML avec Hyperdisk ML

Découvrez comment simplifier et accélérer le chargement des pondérations de modèles d'IA/ML sur GKE à l'aide d'Hyperdisk ML.

Formation

Formation et tutoriels

Diffuser un LLM à l'aide de TPU sur GKE avec JetStream et PyTorch

Découvrez comment diffuser un LLM à l'aide de TPU (Tensor Processing Units) sur GKE avec JetStream via PyTorch.

Formation

Formation et tutoriels

Bonnes pratiques pour optimiser l'inférence de LLM avec des GPU sur GKE

Découvrez les bonnes pratiques pour optimiser les performances d'inférence des LLM avec des GPU sur GKE à l'aide des frameworks de mise en service vLLM et d'inférence de génération de texte (TGI).

Formation

Formation et tutoriels

Gérer la pile de GPU avec l'opérateur GPU NVIDIA sur GKE

Découvrez quand utiliser l'opérateur GPU NVIDIA et comment l'activer sur GKE.

Formation

Formation et tutoriels

Configurer l'autoscaling pour les charges de travail LLM sur les TPU

Découvrez comment configurer votre infrastructure d'autoscaling à l'aide de l'autoscaler horizontal des pods (HPA) de GKE pour déployer le LLM Gemma à l'aide de JetStream à hôte unique.

Formation

Formation et tutoriels

Affiner les modèles ouverts Gemma à l'aide de plusieurs GPU sur GKE

Découvrez comment affiner le LLM Gemma à l'aide de GPU sur GKE avec la bibliothèque Hugging Face Transformers.

Formation

Formation et tutoriels

Déployer une application Ray Serve avec un modèle Stable Diffusion sur GKE avec des TPU

Découvrez comment déployer et diffuser un modèle Stable Diffusion sur GKE à l'aide de TPU, de Ray Serve et du module complémentaire Ray Operator.

Formation

Formation et tutoriels

Configurer l'autoscaling pour les charges de travail LLM sur les GPU avec GKE

Découvrez comment configurer votre infrastructure d'autoscaling à l'aide de l'autoscaler horizontal des pods (HPA) de GKE pour déployer le LLM Gemma avec le framework de diffusion d'interface de génération de texte (TGI) de Hugging Face.

Formation

Formation et tutoriels

Entraîner Llama2 avec Megatron-LM sur des machines virtuelles A3 Mega

Découvrez comment exécuter une charge de travail PyTorch Megatron-LM basée sur des conteneurs sur A3 Mega.

Formation

Formation et tutoriels

Déployer des charges de travail GPU dans Autopilot

Découvrez comment demander des accélérateurs matériels (GPU) dans vos charges de travail GKE Autopilot.

Formation

Formation et tutoriels

Diffuser un grand modèle de langage avec plusieurs GPU dans GKE

Découvrez comment diffuser Llama 2 70B ou Falcon 40B à l'aide de plusieurs GPU NVIDIA L4 avec GKE.

Formation

Formation et tutoriels

Diffuser un LLM à l'aide de TPU multi-hôtes sur GKE avec Saxml

Apprenez à diffuser un grand modèle de langage (Falcon 7b, Llama2 7b, Falcon 40b ou Llama2 70b) à l'aide du framework Ray dans GKE.

Formation

Formation et tutoriels

Premiers pas avec Ray sur GKE

Découvrez comment utiliser facilement Ray sur GKE en exécutant une charge de travail sur un cluster Ray.

Formation

Formation et tutoriels

Diffuser un LLM sur des GPU L4 avec Ray

Apprenez à diffuser un grand modèle de langage (Falcon 7b, Llama2 7b, Falcon 40b ou Llama2 70b) à l'aide du framework Ray dans GKE.

Formation

Formation et tutoriels

Orchestrer des charges de travail TPU Multislice à l'aide de JobSet et de Kueue

Découvrez comment orchestrer une charge de travail Jax sur plusieurs tranches de TPU sur GKE à l'aide de JobSet et Kueue.

Formation

Formation et tutoriels

Surveiller les charges de travail GPU sur GKE avec le gestionnaire GPU de centre de données (DCGM) NVIDIA

Découvrez comment observer les charges de travail GPU sur GKE avec le gestionnaire GPU de centre de données (DCGM) NVIDIA.

Formation

Formation et tutoriels

Guide de démarrage rapide : Entraîner un modèle avec des GPU sur des clusters GKE Standard

Ce guide de démarrage rapide explique comment déployer un modèle d'entraînement avec des GPU dans GKE et stocker les prédictions dans Cloud Storage.

Formation

Formation et tutoriels

Exécuter des modèles de machine learning à grande échelle sur GKE

Cette vidéo explique comment GKE permet de résoudre les problèmes courants liés à l'entraînement de modèles d'IA volumineux à grande échelle, ainsi que les bonnes pratiques concernant l'entraînement et la diffusion de modèles de machine learning à grande échelle sur GKE.

Formation

Formation et tutoriels

TensorFlow sur GKE Autopilot avec l'accélération GPU

Cet article de blog est un guide par étapes pour la création, l'exécution et la suppression d'un notebook Jupiter reposant sur Tensorflow.

Formation

Formation et tutoriels

Implémenter un système de mise en file d'attente de jobs avec un partage de quota entre espaces de noms dans GKE

Ce tutoriel utilise Kueue pour vous montrer comment mettre en œuvre un système de mise en file d'attente de tâches et configurer le partage des ressources et des quotas de charges de travail entre différents espaces de noms sur GKE.

Formation

Formation et tutoriels

Créer un chatbot RAG avec GKE et Cloud Storage

Ce tutoriel explique comment intégrer une application de grand modèle de langage basée sur la génération avec récupération à des fichiers PDF que vous importez dans un bucket Cloud Storage.

Formation

Formation et tutoriels

Analyser les données sur GKE à l'aide de BigQuery, Cloud Run et Gemma

Ce tutoriel vous explique comment analyser de grands ensembles de données sur GKE en utilisant BigQuery pour le stockage et le traitement des données, Cloud Run pour la gestion des requêtes et un LLM Gemma pour l'analyse et les prédictions des données.

Cas d'utilisation

Prétraitement distribué des données avec GKE et Ray: mise à l'échelle pour l'entreprise

Découvrez comment exploiter GKE et Ray pour prétraiter efficacement de grands ensembles de données à des fins de machine learning.

MLOps Formation Ray

Cas d'utilisation

Bonnes pratiques de chargement de données pour l'inférence d'IA/ML sur GKE

Découvrez comment accélérer les temps de chargement des données pour vos applications de machine learning sur Google Kubernetes Engine.

Inférence Hyperdisk ML Cloud Storage FUSE

Cas d'utilisation

Économisez sur les GPU: autoscaling plus intelligent pour vos charges de travail d'inférence GKE

Découvrez comment optimiser vos coûts d'inférence GPU en ajustant l'autoscaler de pods horizontaux de GKE pour une efficacité maximale.

Inférence GPU HPA

Cas d'utilisation

Fournissez efficacement des modèles d'IA optimisés avec les microservices NVIDIA NIM sur GKE

Découvrez comment déployer facilement des microservices NVIDIA NIM de pointe sur GKE et accélérer vos charges de travail d'IA.

IA NVIDIA NIM

Cas d'utilisation

Accélérez Ray en production avec le nouvel opérateur Ray sur GKE

Découvrez comment Ray Operator sur GKE simplifie vos déploiements de production d'IA/ML, en améliorant les performances et l'évolutivité.

IA TPU Ray

Cas d'utilisation

Maximiser le débit de diffusion de votre LLM pour les GPU sur GKE : guide pratique

Découvrez comment maximiser le débit de diffusion des grands modèles de langage (LLM) pour les GPU sur GKE, y compris les décisions d'infrastructure et les optimisations du serveur de modèle.

LLM GPU NVIDIA

Cas d'utilisation

Moteurs de recherche simplifiés: une approche low-code avec GKE et Vertex AI Agent Builder

Créer un moteur de recherche avec Google Cloud à l'aide de Vertex AI Agent Builder, de Vertex AI Search et de GKE

Agent de recherche Vertex AI

Cas d'utilisation

LiveX AI réduit les coûts d'assistance client grâce à des agents d'IA formés et diffusés sur GKE et l'IA de NVIDIA

Découvrez comment LiveX AI utilise GKE pour créer des agents d'IA qui améliorent la satisfaction client et réduisent les coûts.

IA générative NVIDIA GPU

Cas d'utilisation

Infrastructure pour une application d'IA générative exploitant le RAG, à l'aide de GKE

Architecture de référence pour l'exécution d'une application d'IA générative avec génération augmentée de récupération (RAG) à l'aide de GKE, Cloud SQL, Ray, Hugging Face et LangChain.

IA générative RAG Ray

Cas d'utilisation

Innovation dans la recherche de brevets : comment IPRally exploite l'IA avec GKE et Ray

Découvrez comment IPRally utilise GKE et Ray pour créer une plate-forme de ML évolutive et efficace afin d'améliorer la vitesse et la précision des recherches de brevets.

IA Ray GPU

Cas d'utilisation

Présentation détaillée des performances de Gemma sur Google Cloud

Utilisez Gemma sur les GPU Cloud et Cloud TPU pour améliorer l'efficacité d'inférence et d'entraînement sur GKE.

IA Gemma Performance

Cas d'utilisation

Présentation détaillée de Gemma sur GKE : de nouvelles innovations pour diffuser des modèles d'IA générative ouverts.

Utilisez les modèles ouverts Gemma de pointe pour créer des applications d'IA portables et personnalisables, puis les déployer sur GKE.

IA Gemma Performance

Cas d'utilisation

Planification avancée pour l'IA et le ML avec Ray et Kueue

Orchestrez des applications Ray dans GKE avec KubeRay et Kueue.

Kubeue Ray KubeRay

Cas d'utilisation

Sécuriser Ray sur Google Kubernetes Engine

Appliquez des insights de sécurité et des techniques de renforcement pour entraîner des charges de travail d'IA/de ML à l'aide de Ray sur GKE.

IA Ray Sécurité

Cas d'utilisation

Choisir son stockage pour les charges de travail d'IA et de ML dans Google Cloud

Sélectionnez la meilleure combinaison d'options de stockage pour les charges de travail d'IA et de ML sur Google Cloud.

IA ML Stockage

Cas d'utilisation

L'installation automatique des pilotes simplifie l'utilisation de GPU NVIDIA dans GKE

Installez automatiquement les pilotes de GPU Nvidia dans GKE.

GPU NVIDIA Installation

Cas d'utilisation

Accélérez votre transition vers l'IA générative avec le framework NVIDIA NeMo sur GKEE

Entraînez des modèles d'IA générative à l'aide de GKE et du framework NVIDIA NeMo.

IA générative NVIDIA NeMo

Cas d'utilisation

Pourquoi utiliser GKE pour vos charges de travail Ray AI ?

Améliorez l'évolutivité, la rentabilité, la tolérance aux pannes, l'isolation et la portabilité en utilisant GKE pour les charges de travail Ray.

IA Ray Évolutivité

Cas d'utilisation

Exécution de l'IA sur un service GKE entièrement géré, désormais avec de nouvelles options de calcul, de nouveaux tarifs et de nouvelles réservations de ressources

Bénéficiez d'une compatibilité GPU et de performances améliorées, ainsi que de tarifs réduits pour les charges de travail d'IA/de ML avec GKE Autopilot.

GPU Autopilot Performances

Cas d'utilisation

Comment SEEN a multiplié ses résultats par 89 et réduit ses coûts de GPU de 66 % grâce à GKE

Une startup adapte la sortie vidéo personnalisée à l'aide de GKE.

GPU Évolutivité Conteneurs

Cas d'utilisation

Comment Spotify libère le potentiel d'innovation en matière de ML avec Ray et GKE

Comment Ray transforme le développement de ML chez Spotify

ML Ray Conteneurs

Cas d'utilisation

Comment Ordaōs Bio exploite l'IA générative sur GKE

Ordaōs Bio, l'un des principaux accélérateurs d'IA pour la recherche et la découverte biomédicales, recherche des solutions à de nouvelles immunotherapies en oncologie et aux maladies inflammatoires chroniques.

Performances TPU Optimisation des coûts

Cas d'utilisation

GKE pour une start-up en pleine croissance grâce au ML

Découvrez comment Moloco, une start-up de la Silicon Valley, a exploité la puissance de GKE et de Tensor Flow Enterprise pour optimiser son infrastructure de machine learning (ML).

ML Évolutivité Optimisation des coûts

Exemples de code

Slurm sur GKE

Suivez cet exemple pour déployer Slurm sur un cluster Google Kubernetes Engine (GKE).

Ouvrir GitHub

Exemples de code

Ray sur GKE

Utilisez ce modèle Terraform pour exécuter Ray sur GKE.

Ouvrir GitHub

Exemples de code

Configurer Ray sur GKE avec des TPU

Utilisez cet exemple Terraform pour déployer Ray sur un cluster GKE avec une topologie 2x2x1.

Ouvrir GitHub

Exemples de code

Charges de travail d'entraînement de ML sur GKE à l'aide de l'API JobSet

Exécutez des charges de travail d'entraînement de machine learning distribuées sur GKE à l'aide de l'API JobSet.

Ouvrir GitHub

Exemples de code

JAX "Hello World" sur GKE

Exécutez un programme JAX simple avec les GPU NVIDIA A100-80GB sur un cluster GKE.

Ouvrir GitHub

Gemma, la nouvelle famille de modèles ouverts de Google DeepMind, est disponible sur GKE.