L'inférence de l'IA est la partie "exécution" de l'intelligence artificielle. C'est le moment où un modèle entraîné cesse d'apprendre et commence à fonctionner, en transformant ses connaissances en résultats concrets.
Pour faire simple, si l'entraînement consiste à enseigner une nouvelle compétence à une IA, l'inférence correspond à l'utilisation de cette compétence par l'IA pour effectuer une tâche. Il prend en entrée de nouvelles données (comme une photo ou un texte) et produit instantanément un résultat, comme une prédiction, une photo ou une décision. C'est là que l'IA apporte de la valeur ajoutée. Pour tous ceux qui développent des solutions d'IA, il est essentiel de comprendre comment rendre l'inférence rapide, évolutive et économique pour créer des solutions efficaces. Par exemple, un développeur d'entreprise peut utiliser l'inférence d'IA sur Google Kubernetes Engine (GKE) pour créer un système qui analyse les achats des clients en temps réel et propose des remises personnalisées au moment du paiement, ce qui augmente les ventes et la satisfaction client.
Le cycle de vie complet de l'IA englobe toutes les étapes, de la collecte des données à la surveillance à long terme. Cependant, le parcours central d'un modèle, de sa création à son exécution, comporte trois étapes clés. Les deux premières concernent l'apprentissage, tandis que la dernière consiste à mettre en pratique cet apprentissage.
Ce tableau récapitule les principales différences :
Formation sur l'IA | Réglage fin de l'IA | Inférence de l'IA | mise en service de l'IA | |
Objectif | Créez un modèle de toutes pièces. | Adapter un modèle pré-entraîné à une tâche spécifique | Utilisez un modèle entraîné pour effectuer des prédictions. | Déployez et gérez le modèle pour traiter les requêtes d'inférence. |
Processus | Apprentissage itératif à partir d'un grand ensemble de données | Ajuste un modèle existant avec un ensemble de données plus petit. | Un seul "passage avant" rapide des nouvelles données. | Empaqueter le modèle et l'exposer en tant qu'API |
Données | Ensembles de données volumineux, historiques et étiquetés | Des ensembles de données plus petits et spécifiques à une tâche. | Données réelles, non étiquetées et en direct. | N/A |
Priorité commerciale | Précision et capacité du modèle | Efficacité et personnalisation | Vitesse (latence), évolutivité et rentabilité. | Fiabilité, évolutivité et facilité de gestion du point de terminaison d'inférence |
Formation sur l'IA
Réglage fin de l'IA
Inférence de l'IA
mise en service de l'IA
Objectif
Créez un modèle de toutes pièces.
Adapter un modèle pré-entraîné à une tâche spécifique
Utilisez un modèle entraîné pour effectuer des prédictions.
Déployez et gérez le modèle pour traiter les requêtes d'inférence.
Processus
Apprentissage itératif à partir d'un grand ensemble de données
Ajuste un modèle existant avec un ensemble de données plus petit.
Un seul "passage avant" rapide des nouvelles données.
Empaqueter le modèle et l'exposer en tant qu'API
Données
Ensembles de données volumineux, historiques et étiquetés
Des ensembles de données plus petits et spécifiques à une tâche.
Données réelles, non étiquetées et en direct.
N/A
Priorité commerciale
Précision et capacité du modèle
Efficacité et personnalisation
Vitesse (latence), évolutivité et rentabilité.
Fiabilité, évolutivité et facilité de gestion du point de terminaison d'inférence
L'inférence d'IA repose sur trois étapes qui transforment de nouvelles données en un résultat utile.
Prenons un exemple simple : un modèle d'IA conçu pour identifier des objets dans des photos.
Bien qu'une inférence unique soit rapide, servir des millions d'utilisateurs en temps réel augmente la latence et les coûts, et nécessite du matériel optimisé. Les processeurs graphiques (GPU) spécialisés dans l'IA et les Tensor Processing Units de Google sont conçus pour gérer ces tâches efficacement, ainsi que l'orchestration avec Google Kubernetes Engine, ce qui contribue à augmenter le débit et à réduire la latence.
Il s'agit de l'approche la plus courante, dans laquelle l'inférence s'exécute sur de puissants serveurs distants dans un centre de données. Le cloud offre une évolutivité et des ressources de calcul immenses, ce qui le rend idéal pour gérer des ensembles de données massifs et des modèles complexes. Dans le cloud, il existe généralement deux modes d'inférence principaux :
Cette approche effectue l'inférence directement sur l'appareil où les données sont générées, qu'il s'agisse d'un smartphone ou d'un capteur industriel. En évitant un aller-retour vers le cloud, l'inférence en périphérie offre des avantages uniques :
Pour vous aider à choisir l'approche la plus adaptée à vos besoins spécifiques, voici une comparaison rapide des principales caractéristiques et des cas d'utilisation de chaque type d'inférence d'IA :
Fonctionnalité | Inférence par lot | Inférence en temps réel | Inférence en périphérie |
Emplacement principal | Cloud (centres de données) | Cloud (centres de données) | Appareil local (téléphone, capteur IoT, robot, etc.) |
Latence/réactivité | Élevée (les prédictions sont renvoyées après le traitement du lot) | Très faible (de quelques millisecondes à quelques secondes par requête) | Extrêmement faible (quasi instantanée, sans saut de réseau) |
Volume de données | Ensembles de données volumineux (plusieurs téraoctets) | Événements/requêtes individuels | Événements/requêtes individuels (sur l'appareil) |
Flux des données | Les données sont envoyées au cloud, traitées, et les résultats sont renvoyés. | Chaque requête envoyée au cloud, traitée et renvoyée | Les données sont traitées sur l'appareil et les résultats sont utilisés sur l'appareil. |
Cas d'utilisation types | Catégorisation de documents à grande échelle, analyse financière du jour au lendemain, maintenance prédictive périodique | Recommandations de produits, chatbots, traduction en direct, alertes de fraude en temps réel | Conduite autonome, caméras intelligentes, assistants vocaux hors connexion, contrôle qualité industriel |
Principaux avantages | Rentable pour les tâches volumineuses et non urgentes | Réactivité immédiate pour les applications destinées aux utilisateurs | Latence minimale, confidentialité renforcée, capacité hors connexion, réduction des coûts de bande passante |
Fonctionnalité
Inférence par lot
Inférence en temps réel
Inférence en périphérie
Emplacement principal
Cloud (centres de données)
Cloud (centres de données)
Appareil local (téléphone, capteur IoT, robot, etc.)
Latence/réactivité
Élevée (les prédictions sont renvoyées après le traitement du lot)
Très faible (de quelques millisecondes à quelques secondes par requête)
Extrêmement faible (quasi instantanée, sans saut de réseau)
Volume de données
Ensembles de données volumineux (plusieurs téraoctets)
Événements/requêtes individuels
Événements/requêtes individuels (sur l'appareil)
Flux des données
Les données sont envoyées au cloud, traitées, et les résultats sont renvoyés.
Chaque requête envoyée au cloud, traitée et renvoyée
Les données sont traitées sur l'appareil et les résultats sont utilisés sur l'appareil.
Cas d'utilisation types
Catégorisation de documents à grande échelle, analyse financière du jour au lendemain, maintenance prédictive périodique
Recommandations de produits, chatbots, traduction en direct, alertes de fraude en temps réel
Conduite autonome, caméras intelligentes, assistants vocaux hors connexion, contrôle qualité industriel
Principaux avantages
Rentable pour les tâches volumineuses et non urgentes
Réactivité immédiate pour les applications destinées aux utilisateurs
Latence minimale, confidentialité renforcée, capacité hors connexion, réduction des coûts de bande passante
L'inférence de l'IA transforme les secteurs en permettant de nouveaux niveaux d'automatisation, une prise de décision plus intelligente et des applications innovantes. Pour les développeurs d'entreprise, voici quelques domaines essentiels dans lesquels l'inférence génère une valeur commerciale concrète :
Google Cloud propose une suite complète d'outils et de services qui aident les développeurs et les organisations à créer, déployer et gérer des charges de travail d'inférence d'IA de manière efficace et à grande échelle. Les fonctionnalités d'inférence sont profondément intégrées dans de nombreuses offres :
Produit Google Cloud | Approche d'inférence prise en charge | Idéal lorsque vous devez | Exemple de cas d'utilisation pour l'inférence |
Tous les types d'inférence (cloud et hybride) | Bénéficiez d'un contrôle et d'une flexibilité ultimes pour déployer, gérer et faire évoluer des services d'inférence conteneurisés personnalisés, souvent avec du matériel spécialisé, dans des environnements cloud ou hybrides. | Déployer et mettre à l'échelle un modèle d'IA sur mesure pour la détection d'anomalies en temps réel dans un système industriel complexe | |
Inférence cloud en temps réel (sans serveur) | Déployez des modèles conteneurisés avec autoscaling jusqu'à zéro et tarification à la requête, idéal pour les charges de travail très variables et intermittentes, ou les services Web simples. | Diffuser un modèle de petite à moyenne taille pour une application Web dont le trafic fluctue considérablement, tout en assurant la rentabilité | |
Inférence cloud en temps réel et par lot | Profitez d'une accélération flexible et hautes performances pour un large éventail de modèles et de frameworks d'IA. | Traitez rapidement des images haute résolution pour des diagnostics médicaux ou accélérez la modélisation financière complexe. | |
Inférence cloud par lot (entrepôt de données) | Effectuez des inférences directement sur les données déjà présentes dans votre entrepôt de données à l'aide de SQL, ce qui élimine les déplacements de données. | Prédisez le taux de désabonnement des clients directement à partir des données de votre CRM dans BigQuery. | |
Inférence cloud en temps réel (tâches spécifiques) | Intégrez facilement des fonctionnalités d'IA avancées (vision, langage, parole, etc.) dans vos applications sans avoir à créer ni à entraîner de modèles. | Traduisez automatiquement les messages de chat des clients en temps réel ou analysez les sentiments exprimés dans les posts sur les réseaux sociaux. | |
Inférence cloud en temps réel et par lot (modèles volumineux) | Obtenez des performances et une rentabilité maximales lors de la diffusion de modèles de deep learning très volumineux et complexes, en particulier de grands modèles de langage (LLM). | Alimentez les réponses en temps réel d'un chatbot d'IA générative de pointe. | |
Solutions Edge (comme Coral, GDC Edge) | Inférence en périphérie | Activez la latence ultra-faible, la confidentialité renforcée ou les fonctionnalités hors connexion en exécutant les modèles directement sur les appareils. | Effectuez une reconnaissance instantanée d'objets sur une caméra connectée sans envoyer de vidéo dans le cloud. |
Préparation des données pour l'inférence cloud par lot | Traitez et préparez efficacement de grandes quantités de données pour des jobs d'inférence par lot à grande échelle. | Prétraitez des pétaoctets de données de capteurs avant de les utiliser dans un modèle de maintenance prédictive. |
Produit Google Cloud
Approche d'inférence prise en charge
Idéal lorsque vous devez
Exemple de cas d'utilisation pour l'inférence
Tous les types d'inférence (cloud et hybride)
Bénéficiez d'un contrôle et d'une flexibilité ultimes pour déployer, gérer et faire évoluer des services d'inférence conteneurisés personnalisés, souvent avec du matériel spécialisé, dans des environnements cloud ou hybrides.
Déployer et mettre à l'échelle un modèle d'IA sur mesure pour la détection d'anomalies en temps réel dans un système industriel complexe
Inférence cloud en temps réel (sans serveur)
Déployez des modèles conteneurisés avec autoscaling jusqu'à zéro et tarification à la requête, idéal pour les charges de travail très variables et intermittentes, ou les services Web simples.
Diffuser un modèle de petite à moyenne taille pour une application Web dont le trafic fluctue considérablement, tout en assurant la rentabilité
Inférence cloud en temps réel et par lot
Profitez d'une accélération flexible et hautes performances pour un large éventail de modèles et de frameworks d'IA.
Traitez rapidement des images haute résolution pour des diagnostics médicaux ou accélérez la modélisation financière complexe.
Inférence cloud par lot (entrepôt de données)
Effectuez des inférences directement sur les données déjà présentes dans votre entrepôt de données à l'aide de SQL, ce qui élimine les déplacements de données.
Prédisez le taux de désabonnement des clients directement à partir des données de votre CRM dans BigQuery.
Inférence cloud en temps réel (tâches spécifiques)
Intégrez facilement des fonctionnalités d'IA avancées (vision, langage, parole, etc.) dans vos applications sans avoir à créer ni à entraîner de modèles.
Traduisez automatiquement les messages de chat des clients en temps réel ou analysez les sentiments exprimés dans les posts sur les réseaux sociaux.
Inférence cloud en temps réel et par lot (modèles volumineux)
Obtenez des performances et une rentabilité maximales lors de la diffusion de modèles de deep learning très volumineux et complexes, en particulier de grands modèles de langage (LLM).
Alimentez les réponses en temps réel d'un chatbot d'IA générative de pointe.
Solutions Edge (comme Coral, GDC Edge)
Inférence en périphérie
Activez la latence ultra-faible, la confidentialité renforcée ou les fonctionnalités hors connexion en exécutant les modèles directement sur les appareils.
Effectuez une reconnaissance instantanée d'objets sur une caméra connectée sans envoyer de vidéo dans le cloud.
Préparation des données pour l'inférence cloud par lot
Traitez et préparez efficacement de grandes quantités de données pour des jobs d'inférence par lot à grande échelle.
Prétraitez des pétaoctets de données de capteurs avant de les utiliser dans un modèle de maintenance prédictive.
Vertex AI est la plate-forme d'IA unifiée de Google Cloud. Il fournit des outils complets pour créer, déployer et gérer des modèles de ML, ce qui en fait le service de référence pour la plupart des besoins d'inférence dans le cloud.
Fonctionnalité Vertex AI | Approche d'inférence | Idéal lorsque vous devez | Exemple de cas d'utilisation pour l'inférence |
Inférence cloud en temps réel | Déployez des modèles personnalisés et obtenez des prédictions en temps réel à faible latence à partir d'un point de terminaison géré. | Recommandez instantanément des produits à un utilisateur qui navigue sur un site Web. | |
Inférence cloud par lot | Traitez de grands ensembles de données de manière économique sans avoir besoin de résultats en temps réel. | Analysez toutes les transactions client d'hier pour détecter des schémas de fraude. | |
Inférence cloud en temps réel et par lot (IA générative) | Exploitez rapidement des modèles pré-entraînés performants pour les tâches courantes ou d'IA générative sans avoir à les entraîner à partir de zéro. | Générez des textes marketing, résumez de longs documents ou créez des extraits de code. |
Fonctionnalité Vertex AI
Approche d'inférence
Idéal lorsque vous devez
Exemple de cas d'utilisation pour l'inférence
Inférence cloud en temps réel
Déployez des modèles personnalisés et obtenez des prédictions en temps réel à faible latence à partir d'un point de terminaison géré.
Recommandez instantanément des produits à un utilisateur qui navigue sur un site Web.
Inférence cloud par lot
Traitez de grands ensembles de données de manière économique sans avoir besoin de résultats en temps réel.
Analysez toutes les transactions client d'hier pour détecter des schémas de fraude.
Inférence cloud en temps réel et par lot (IA générative)
Exploitez rapidement des modèles pré-entraînés performants pour les tâches courantes ou d'IA générative sans avoir à les entraîner à partir de zéro.
Générez des textes marketing, résumez de longs documents ou créez des extraits de code.
Vous souhaitez améliorer vos compétences en inférence d'IA ? Voici quelques ressources utiles pour en savoir plus et vous lancer :
Profitez de 300 $ de crédits gratuits et de plus de 20 produits Always Free pour commencer à créer des applications sur Google Cloud.