Qu'est-ce qu'une charge de travail d'IA ?

Une charge de travail d'IA est un ensemble de tâches de calcul et de processus qui alimentent les systèmes d'intelligence artificielle ou de machine learning (ML). Considérez-la comme l'importante puissance de calcul dont une application d'IA a besoin pour apprendre, faire des prédictions ou générer du contenu. Ces charges de travail peuvent être essentielles pour les professionnels qui développent des solutions d'IA, car elles englobent les étapes clés qui alimentent les systèmes de machine learning : la préparation des données, l'entraînement de modèle, l'inférence et la surveillance.

Options d'orchestration des charges de travail d'IA

Types de charges de travail d'IA

Les charges de travail d'IA et de ML peuvent être classées en deux grandes catégories :

  • Étape du cycle de vie de l'IA qu'elles représentent (comme le prétraitement des données, l'entraînement et l'inférence)
  • Type de tâche qu'elles effectuent (comme le traitement du langage naturel ou la vision par ordinateur)

La compréhension de ces catégories aide les responsables techniques à planifier l'infrastructure, la puissance de calcul et les stratégies d'orchestration spécifiques que chacune d'elles exige.

Type de charge de travail d'IA

Fonction principale dans le cycle de vie de l'IA

Accent mis sur les calculs requis

Préparation des données


Nettoyage, transformation et mise en forme des données brutes pour les rendre prêtes à être utilisées dans un modèle.

Traitement de nombreuses E/S (entrée/sortie) sollicitant fortement le processeur pour la manipulation des données.

Entraîner le modèle

Utilisation de données préparées pour entraîner le modèle d'IA, en ajustant de manière itérative ses paramètres pour améliorer la justesse.

Puissance de calcul exceptionnelle (GPU/TPU), haute capacité de mémoire et traitement parallèle.

Inférence de modèle

Déploiement du modèle entraîné pour effectuer des prédictions ou obtenir des résultats en temps réel sur de nouvelles données.

Faible latence et débit élevé, nécessitant souvent du matériel spécialisé en périphérie ou dans le cloud.

IA générative

Créez des contenus, comme du texte, des images ou du code, à l'aide de grands modèles de fondation.

Inférence et affinage à grande échelle, nécessitant des GPU/TPU haut de gamme.

Vision par ordinateur


Permettre aux machines d'interpréter et d'exploiter des données visuelles, telles que des images et des vidéos.

Débit de données élevé et accélération spécialisée du deep learning.

Traitement du langage naturel (TLN)

Traitement et compréhension du langage humain pour des tâches telles que la traduction et la synthèse.

Mélange d'entraînement accéléré par GPU et de diffusion à faible latence pour les applications en temps réel.

Type de charge de travail d'IA

Fonction principale dans le cycle de vie de l'IA

Accent mis sur les calculs requis

Préparation des données


Nettoyage, transformation et mise en forme des données brutes pour les rendre prêtes à être utilisées dans un modèle.

Traitement de nombreuses E/S (entrée/sortie) sollicitant fortement le processeur pour la manipulation des données.

Entraîner le modèle

Utilisation de données préparées pour entraîner le modèle d'IA, en ajustant de manière itérative ses paramètres pour améliorer la justesse.

Puissance de calcul exceptionnelle (GPU/TPU), haute capacité de mémoire et traitement parallèle.

Inférence de modèle

Déploiement du modèle entraîné pour effectuer des prédictions ou obtenir des résultats en temps réel sur de nouvelles données.

Faible latence et débit élevé, nécessitant souvent du matériel spécialisé en périphérie ou dans le cloud.

IA générative

Créez des contenus, comme du texte, des images ou du code, à l'aide de grands modèles de fondation.

Inférence et affinage à grande échelle, nécessitant des GPU/TPU haut de gamme.

Vision par ordinateur


Permettre aux machines d'interpréter et d'exploiter des données visuelles, telles que des images et des vidéos.

Débit de données élevé et accélération spécialisée du deep learning.

Traitement du langage naturel (TLN)

Traitement et compréhension du langage humain pour des tâches telles que la traduction et la synthèse.

Mélange d'entraînement accéléré par GPU et de diffusion à faible latence pour les applications en temps réel.

Questions fréquentes sur les charges de travail d'IA

Les charges de travail d'IA se caractérisent principalement par l'utilisation intensive de données (traitement d'ensembles de données volumineux, souvent non structurés) et de calculs (matériel de traitement parallèle spécialisé requis, comme les GPU pour l'entraînement). Les charges de travail traditionnelles, comme les bases de données relationnelles ou les serveurs Web simples, sont davantage axées sur un débit transactionnel cohérent et sont généralement optimisées pour les architectures de processeur standards.

Vous choisissez les charges de travail d'entraînement lorsque vous devez créer un modèle ou améliorer considérablement un modèle existant en lui fournissant de nouvelles données. Cela peut nécessiter une puissance de calcul élevée et coûteuse.

Vous utilisez des charges de travail d'inférence lorsque votre modèle est prêt et déployé en production, et que vous avez besoin qu'il effectue des prédictions par lot ou en temps réel, en privilégiant une faible latence et un débit élevé à un coût par transaction inférieur.

Les principaux défis concernent généralement l'orchestration, qui consiste à coordonner efficacement de grands clusters de GPU et de TPU, la gestion des données, qui consiste à garantir un accès rapide et fiable à des pétaoctets de données, et le contrôle des coûts, qui consiste à gérer la consommation de ressources de calcul coûteuses pour éviter les dépassements de budget dans une infrastructure inactive.

Parmi les tendances émergentes, on peut citer l'utilisation de plates-formes sans serveur avec prise en charge des GPU pour faire abstraction de la gestion de l'infrastructure, l'adoption de l'orchestration multicloud pour une utilisation flexible des ressources, et l'exploitation de modèles de fondation qui nécessitent moins d'entraînement à partir de zéro et se concentrent davantage sur l'affinage et la diffusion efficace.

Cas d'utilisation courants des charges de travail d'IA

Les charges de travail d'IA sont au cœur de la transformation numérique. Elles offrent des applications concrètes à fort impact dans presque tous les secteurs, et transforment les données en valeur pratique.

Expériences client personnalisées

Les charges de travail d'IA peuvent alimenter des moteurs de recommandation pour les entreprises de vente au détail, d'e-commerce et du secteur des médias. Par exemple, une entreprise de streaming utilise un modèle de ML sophistiqué, entraîné sur des milliards d'habitudes de visionnage, pour fournir des suggestions de contenu hautement personnalisées.

Maintenance prédictive dans l'industrie

Les fabricants déploient des capteurs sur les équipements critiques, ce qui génère d'énormes quantités de données de séries temporelles. Les charges de travail d'IA peuvent analyser en continu ces données pour prédire les défaillances mécaniques plusieurs jours ou semaines à l'avance, ce qui permet de planifier la maintenance.

Détection des fraudes et analyse des risques financiers

Les institutions financières utilisent des charges de travail de machine learning pour analyser des millions de transactions en temps réel. Ces modèles peuvent identifier des schémas révélateurs de fraude, et certains systèmes détectent les transactions non autorisées de manière ultra-précise et avec un faible taux de faux positifs.

Imagerie et diagnostics médicaux

Les charges de travail de vision par ordinateur permettent d'analyser des images médicales telles que les radiographies, les scanners et les IRM. Ces modèles d'IA peuvent signaler des anomalies potentielles, comme des tumeurs à un stade précoce, souvent avec une rapidité et une cohérence qui aident les cliniciens à établir des diagnostics plus rapides et plus précis.

IA générative et production de contenu

Les charges de travail basées sur des modèles d'IA générative contribuent à transformer les domaines créatifs et techniques. Elles servent à générer automatiquement des textes marketing, à synthétiser des images réalistes pour la publicité, à créer des résumés de réunions virtuelles ou même à aider les développeurs en suggérant et en complétant des blocs de code.

Implémenter des charges de travail d'IA sur Google Cloud

Google Cloud peut offrir un écosystème puissant et unifié, basé sur l'infrastructure qui alimente les propres avancées de Google en matière d'IA. Il s'agit donc d'une plate-forme idéale pour héberger, faire évoluer, orchestrer et gérer vos charges de travail d'IA et de ML.

Vertex AI est une plate-forme de machine learning unifiée qui regroupe tous les services cloud permettant de créer, de déployer et de faire évoluer des modèles de ML. Cette solution peut fournir un environnement unique pour l'ensemble du cycle de vie MLOps, ce qui permet aux data scientists et aux ingénieurs de se concentrer sur le développement de modèles plutôt que sur l'intégration d'outils.

Google Cloud propose un large éventail d'options de calcul, y compris Cloud TPU et Cloud GPU. Les Cloud TPU (Tensor Processing Units) sont spécialement conçus pour fournir des modèles d'IA à grande échelle. Les Cloud GPU sont basés sur des processeurs graphiques (GPU) NVIDIA et offrent des capacités de calcul flexibles et hautes performances pour un large éventail de charges de travail d'IA et HPC.


Vertex AI Pipelines vous permet d'automatiser, de gérer et de surveiller l'intégralité de votre workflow de machine learning à l'aide d'outils Open Source comme Kubeflow. Cela peut être essentiel pour créer des processus fiables et reproductibles pour la préparation des données, l'entraînement et le déploiement.

Le service Identity and Access Management (IAM) de Google Cloud fournit des commandes précises pour définir les personnes autorisées à accéder à vos ressources, données et modèles d'IA, et à les gérer. Cela permet de s'assurer que seuls le personnel et les services autorisés peuvent interagir avec vos charges de travail d'IA sensibles, ce qui vous aide à respecter des normes de sécurité et réglementaires strictes.

Google Kubernetes Engine (GKE) est un service Kubernetes entièrement géré et évolutif, qui est nécessaire pour exécuter des charges de travail d'IA conteneurisées. Il vous permet d'orchestrer et de gérer des clusters complexes avec flexibilité au niveau des accélérateurs matériels, et d'étendre votre environnement d'IA de manière fluide entre le cloud public et les systèmes sur site.

Avantages des charges de travail d'IA

Le déploiement de charges de travail d'IA peut apporter des avantages commerciaux et techniques considérables, principalement en se concentrant sur l'efficacité, une évolutivité supérieure et la capacité à stimuler rapidement l'innovation à partir de données. Elles peuvent permettre aux organisations de passer d'opérations réactives à une stratégie plus proactive et intelligente.

Évolutivité et performances accélérées

Les charges de travail d'IA, en particulier dans le cloud, peuvent faire évoluer les ressources (par exemple, en ajoutant des centaines de GPU) à la demande pour traiter d'énormes ensembles de données et des modèles complexes, sans nécessiter d'importantes dépenses d'investissement initiales.

Optimisation des coûts opérationnels

Les plates-formes d'IA dans le cloud vous permettent de ne payer que les ressources de calcul que vous utilisez réellement. Elles vous aident ainsi à optimiser vos coûts, contrairement aux clusters matériel sur site dédiés qui restent inactifs pendant certaines périodes.

Pipelines de déploiement standardisés et simplifiés

Les plates-formes pour les charges de travail d'IA utilisent des outils MLOps (ou Machine Learning Operations) pour automatiser et standardiser le cycle de vie de bout en bout, de la préparation des données au déploiement et à la surveillance des modèles.

Intégration de la sécurité et de la gouvernance

Une plate-forme cloud intègre des fonctionnalités de sécurité, telles que la gestion de l'authentification et des accès (IAM) et la sécurité réseau, directement dans votre environnement d'IA. Cela permet de simplifier le processus de respect des exigences réglementaires et de gouvernance.

Prise en charge des environnements hybrides et multicloud

Les solutions d'IA sont conçues pour s'exécuter de manière flexible. Elles peuvent exploiter les conteneurs et les outils d'orchestration pour gérer et exécuter les charges de travail de manière cohérente entre différents fournisseurs de services cloud publics.

Procédure pour déployer une charge de travail d'inférence de modèle avec Vertex AI

Le déploiement d'un modèle de machine learning entraîné pour l'inférence peut être une étape clé de la mise en production d'une charge de travail d'IA. Vertex AI simplifie ce processus en fournissant des services gérés qui prennent en charge l'infrastructure sous-jacente.

Importer le modèle entraîné dans le registre de modèles

  • La première étape consiste à prendre l'artefact de modèle entraîné et à l'importer dans Vertex AI Model Registry. Ce dépôt centralisé stocke et gère les versions de vos modèles de manière sécurisée, ce qui les rend prêts à être déployés.

Créer un point de terminaison géré

  • Vous créez ensuite un point de terminaison, qui est un serveur HTTP dédié en temps réel pour votre modèle. Ce point de terminaison est l'URL que vos applications appelleront pour obtenir des prédictions. Vous définissez le type de ressources de calcul qu'il utilisera, comme une machine à haute capacité de processeur N1 ou un type de GPU spécifique pour des performances accélérées.

Déployer le modèle sur le point de terminaison

  • Après avoir créé le point de terminaison, vous y déployez une version spécifique de votre modèle. Cette étape consiste à spécifier l'image de conteneur qui inclut votre modèle et le code du serveur de prédiction (souvent une image prédéfinie fournie par Vertex AI). Vous configurez également des répartitions du trafic, qui vous permettent de tester une nouvelle version du modèle avec un faible pourcentage de trafic en direct avant de la déployer complètement.

Envoyer et recevoir des prédictions en ligne

  • Une fois déployé, le modèle est disponible pour la prédiction en ligne. Votre application envoie les données d'entrée (la charge utile) à l'URL du point de terminaison via une requête HTTP. Le service géré traite la charge de travail d'inférence et renvoie la prédiction ou le résultat en temps quasi réel.

Surveiller et contrôler le point de terminaison

  • La dernière étape est la surveillance continue. Vous utilisez les outils intégrés de Vertex AI pour suivre l'état du point de terminaison (latence, taux d'erreur, utilisation des ressources) et les performances du modèle lui-même (dérive, décalage et qualité des prédictions) afin de vous assurer que la charge de travail d'inférence reste fiable et précise dans le temps.

Relevez vos plus grands défis avec Google Cloud

Les nouveaux clients bénéficient de 300 $ de crédits à dépenser sur Google Cloud.

Autres ressources

  • Présentation des charges de travail d'IA et de ML sur GKE : Google Kubernetes Engine fournit une plate-forme gérée pour déployer et faire évoluer des charges de travail d'IA et de machine learning conteneurisées. Il prend en charge l'entraînement et l'inférence à grande échelle avec des accélérateurs matériels, tels que les GPU et les TPU.
  • Choisir son espace de stockage pour les charges de travail d'IA et de ML : ce guide vous aide à élaborer des stratégies de stockage pour les workflows d'IA et de machine learning. Il recommande des services tels que Cloud Storage et Managed Lustre en fonction des exigences spécifiques en termes de latence, de débit et de capacité.

Passez à l'étape suivante

Profitez de 300 $ de crédits gratuits et de plus de 20 produits Always Free pour commencer à créer des applications sur Google Cloud.

  • Faites des économies grâce à notre approche transparente concernant la tarification
  • Le paiement à l'usage de Google Cloud permet de réaliser des économies automatiques basées sur votre utilisation mensuelle et des tarifs réduits pour les ressources prépayées. Contactez-nous dès aujourd'hui afin d'obtenir un devis.
Google Cloud