Une charge de travail d'IA est un ensemble de tâches de calcul et de processus qui alimentent les systèmes d'intelligence artificielle ou de machine learning (ML). Considérez-la comme l'importante puissance de calcul dont une application d'IA a besoin pour apprendre, faire des prédictions ou générer du contenu. Ces charges de travail peuvent être essentielles pour les professionnels qui développent des solutions d'IA, car elles englobent les étapes clés qui alimentent les systèmes de machine learning : la préparation des données, l'entraînement de modèle, l'inférence et la surveillance.
Les charges de travail d'IA et de ML peuvent être classées en deux grandes catégories :
La compréhension de ces catégories aide les responsables techniques à planifier l'infrastructure, la puissance de calcul et les stratégies d'orchestration spécifiques que chacune d'elles exige.
Type de charge de travail d'IA | Fonction principale dans le cycle de vie de l'IA | Accent mis sur les calculs requis |
Préparation des données | Nettoyage, transformation et mise en forme des données brutes pour les rendre prêtes à être utilisées dans un modèle. | Traitement de nombreuses E/S (entrée/sortie) sollicitant fortement le processeur pour la manipulation des données. |
Entraîner le modèle | Utilisation de données préparées pour entraîner le modèle d'IA, en ajustant de manière itérative ses paramètres pour améliorer la justesse. | Puissance de calcul exceptionnelle (GPU/TPU), haute capacité de mémoire et traitement parallèle. |
Inférence de modèle | Déploiement du modèle entraîné pour effectuer des prédictions ou obtenir des résultats en temps réel sur de nouvelles données. | Faible latence et débit élevé, nécessitant souvent du matériel spécialisé en périphérie ou dans le cloud. |
IA générative | Créez des contenus, comme du texte, des images ou du code, à l'aide de grands modèles de fondation. | Inférence et affinage à grande échelle, nécessitant des GPU/TPU haut de gamme. |
Vision par ordinateur | Permettre aux machines d'interpréter et d'exploiter des données visuelles, telles que des images et des vidéos. | Débit de données élevé et accélération spécialisée du deep learning. |
Traitement du langage naturel (TLN) | Traitement et compréhension du langage humain pour des tâches telles que la traduction et la synthèse. | Mélange d'entraînement accéléré par GPU et de diffusion à faible latence pour les applications en temps réel. |
Type de charge de travail d'IA
Fonction principale dans le cycle de vie de l'IA
Accent mis sur les calculs requis
Préparation des données
Nettoyage, transformation et mise en forme des données brutes pour les rendre prêtes à être utilisées dans un modèle.
Traitement de nombreuses E/S (entrée/sortie) sollicitant fortement le processeur pour la manipulation des données.
Entraîner le modèle
Utilisation de données préparées pour entraîner le modèle d'IA, en ajustant de manière itérative ses paramètres pour améliorer la justesse.
Puissance de calcul exceptionnelle (GPU/TPU), haute capacité de mémoire et traitement parallèle.
Inférence de modèle
Déploiement du modèle entraîné pour effectuer des prédictions ou obtenir des résultats en temps réel sur de nouvelles données.
Faible latence et débit élevé, nécessitant souvent du matériel spécialisé en périphérie ou dans le cloud.
IA générative
Créez des contenus, comme du texte, des images ou du code, à l'aide de grands modèles de fondation.
Inférence et affinage à grande échelle, nécessitant des GPU/TPU haut de gamme.
Vision par ordinateur
Permettre aux machines d'interpréter et d'exploiter des données visuelles, telles que des images et des vidéos.
Débit de données élevé et accélération spécialisée du deep learning.
Traitement du langage naturel (TLN)
Traitement et compréhension du langage humain pour des tâches telles que la traduction et la synthèse.
Mélange d'entraînement accéléré par GPU et de diffusion à faible latence pour les applications en temps réel.
Les charges de travail d'IA se caractérisent principalement par l'utilisation intensive de données (traitement d'ensembles de données volumineux, souvent non structurés) et de calculs (matériel de traitement parallèle spécialisé requis, comme les GPU pour l'entraînement). Les charges de travail traditionnelles, comme les bases de données relationnelles ou les serveurs Web simples, sont davantage axées sur un débit transactionnel cohérent et sont généralement optimisées pour les architectures de processeur standards.
Vous choisissez les charges de travail d'entraînement lorsque vous devez créer un modèle ou améliorer considérablement un modèle existant en lui fournissant de nouvelles données. Cela peut nécessiter une puissance de calcul élevée et coûteuse.
Vous utilisez des charges de travail d'inférence lorsque votre modèle est prêt et déployé en production, et que vous avez besoin qu'il effectue des prédictions par lot ou en temps réel, en privilégiant une faible latence et un débit élevé à un coût par transaction inférieur.
Les principaux défis concernent généralement l'orchestration, qui consiste à coordonner efficacement de grands clusters de GPU et de TPU, la gestion des données, qui consiste à garantir un accès rapide et fiable à des pétaoctets de données, et le contrôle des coûts, qui consiste à gérer la consommation de ressources de calcul coûteuses pour éviter les dépassements de budget dans une infrastructure inactive.
Parmi les tendances émergentes, on peut citer l'utilisation de plates-formes sans serveur avec prise en charge des GPU pour faire abstraction de la gestion de l'infrastructure, l'adoption de l'orchestration multicloud pour une utilisation flexible des ressources, et l'exploitation de modèles de fondation qui nécessitent moins d'entraînement à partir de zéro et se concentrent davantage sur l'affinage et la diffusion efficace.
Les charges de travail d'IA sont au cœur de la transformation numérique. Elles offrent des applications concrètes à fort impact dans presque tous les secteurs, et transforment les données en valeur pratique.
Les charges de travail d'IA peuvent alimenter des moteurs de recommandation pour les entreprises de vente au détail, d'e-commerce et du secteur des médias. Par exemple, une entreprise de streaming utilise un modèle de ML sophistiqué, entraîné sur des milliards d'habitudes de visionnage, pour fournir des suggestions de contenu hautement personnalisées.
Les fabricants déploient des capteurs sur les équipements critiques, ce qui génère d'énormes quantités de données de séries temporelles. Les charges de travail d'IA peuvent analyser en continu ces données pour prédire les défaillances mécaniques plusieurs jours ou semaines à l'avance, ce qui permet de planifier la maintenance.
Les institutions financières utilisent des charges de travail de machine learning pour analyser des millions de transactions en temps réel. Ces modèles peuvent identifier des schémas révélateurs de fraude, et certains systèmes détectent les transactions non autorisées de manière ultra-précise et avec un faible taux de faux positifs.
Les charges de travail de vision par ordinateur permettent d'analyser des images médicales telles que les radiographies, les scanners et les IRM. Ces modèles d'IA peuvent signaler des anomalies potentielles, comme des tumeurs à un stade précoce, souvent avec une rapidité et une cohérence qui aident les cliniciens à établir des diagnostics plus rapides et plus précis.
Les charges de travail basées sur des modèles d'IA générative contribuent à transformer les domaines créatifs et techniques. Elles servent à générer automatiquement des textes marketing, à synthétiser des images réalistes pour la publicité, à créer des résumés de réunions virtuelles ou même à aider les développeurs en suggérant et en complétant des blocs de code.
Google Cloud peut offrir un écosystème puissant et unifié, basé sur l'infrastructure qui alimente les propres avancées de Google en matière d'IA. Il s'agit donc d'une plate-forme idéale pour héberger, faire évoluer, orchestrer et gérer vos charges de travail d'IA et de ML.
Vertex AI est une plate-forme de machine learning unifiée qui regroupe tous les services cloud permettant de créer, de déployer et de faire évoluer des modèles de ML. Cette solution peut fournir un environnement unique pour l'ensemble du cycle de vie MLOps, ce qui permet aux data scientists et aux ingénieurs de se concentrer sur le développement de modèles plutôt que sur l'intégration d'outils.
Google Cloud propose un large éventail d'options de calcul, y compris Cloud TPU et Cloud GPU. Les Cloud TPU (Tensor Processing Units) sont spécialement conçus pour fournir des modèles d'IA à grande échelle. Les Cloud GPU sont basés sur des processeurs graphiques (GPU) NVIDIA et offrent des capacités de calcul flexibles et hautes performances pour un large éventail de charges de travail d'IA et HPC.
Vertex AI Pipelines vous permet d'automatiser, de gérer et de surveiller l'intégralité de votre workflow de machine learning à l'aide d'outils Open Source comme Kubeflow. Cela peut être essentiel pour créer des processus fiables et reproductibles pour la préparation des données, l'entraînement et le déploiement.
Le service Identity and Access Management (IAM) de Google Cloud fournit des commandes précises pour définir les personnes autorisées à accéder à vos ressources, données et modèles d'IA, et à les gérer. Cela permet de s'assurer que seuls le personnel et les services autorisés peuvent interagir avec vos charges de travail d'IA sensibles, ce qui vous aide à respecter des normes de sécurité et réglementaires strictes.
Google Kubernetes Engine (GKE) est un service Kubernetes entièrement géré et évolutif, qui est nécessaire pour exécuter des charges de travail d'IA conteneurisées. Il vous permet d'orchestrer et de gérer des clusters complexes avec flexibilité au niveau des accélérateurs matériels, et d'étendre votre environnement d'IA de manière fluide entre le cloud public et les systèmes sur site.
Le déploiement de charges de travail d'IA peut apporter des avantages commerciaux et techniques considérables, principalement en se concentrant sur l'efficacité, une évolutivité supérieure et la capacité à stimuler rapidement l'innovation à partir de données. Elles peuvent permettre aux organisations de passer d'opérations réactives à une stratégie plus proactive et intelligente.
Évolutivité et performances accélérées
Les charges de travail d'IA, en particulier dans le cloud, peuvent faire évoluer les ressources (par exemple, en ajoutant des centaines de GPU) à la demande pour traiter d'énormes ensembles de données et des modèles complexes, sans nécessiter d'importantes dépenses d'investissement initiales.
Optimisation des coûts opérationnels
Les plates-formes d'IA dans le cloud vous permettent de ne payer que les ressources de calcul que vous utilisez réellement. Elles vous aident ainsi à optimiser vos coûts, contrairement aux clusters matériel sur site dédiés qui restent inactifs pendant certaines périodes.
Pipelines de déploiement standardisés et simplifiés
Les plates-formes pour les charges de travail d'IA utilisent des outils MLOps (ou Machine Learning Operations) pour automatiser et standardiser le cycle de vie de bout en bout, de la préparation des données au déploiement et à la surveillance des modèles.
Intégration de la sécurité et de la gouvernance
Une plate-forme cloud intègre des fonctionnalités de sécurité, telles que la gestion de l'authentification et des accès (IAM) et la sécurité réseau, directement dans votre environnement d'IA. Cela permet de simplifier le processus de respect des exigences réglementaires et de gouvernance.
Prise en charge des environnements hybrides et multicloud
Les solutions d'IA sont conçues pour s'exécuter de manière flexible. Elles peuvent exploiter les conteneurs et les outils d'orchestration pour gérer et exécuter les charges de travail de manière cohérente entre différents fournisseurs de services cloud publics.
Le déploiement d'un modèle de machine learning entraîné pour l'inférence peut être une étape clé de la mise en production d'une charge de travail d'IA. Vertex AI simplifie ce processus en fournissant des services gérés qui prennent en charge l'infrastructure sous-jacente.
Importer le modèle entraîné dans le registre de modèles
Créer un point de terminaison géré
Déployer le modèle sur le point de terminaison
Envoyer et recevoir des prédictions en ligne
Surveiller et contrôler le point de terminaison
Profitez de 300 $ de crédits gratuits et de plus de 20 produits Always Free pour commencer à créer des applications sur Google Cloud.