Qu'est-ce que l'inférence de l'IA ?

L'inférence de l'IA est la partie "exécution" de l'intelligence artificielle. C'est le moment où un modèle entraîné cesse d'apprendre et commence à fonctionner, en transformant ses connaissances en résultats concrets.

Pour faire simple, si l'entraînement consiste à enseigner une nouvelle compétence à une IA, l'inférence correspond à l'utilisation de cette compétence par l'IA pour effectuer une tâche. Il prend en entrée de nouvelles données (comme une photo ou un texte) et produit instantanément un résultat, comme une prédiction, une photo ou une décision. C'est là que l'IA apporte de la valeur ajoutée. Pour tous ceux qui développent des solutions d'IA, il est essentiel de comprendre comment rendre l'inférence rapide, évolutive et économique pour créer des solutions efficaces.

BLOG

Qu'est-ce que l'inférence ? Un expert de la tech vous répond.

"Entraînement de l'IA", "Affinage", "Inférence" et "Mise en service"

Le cycle de vie complet de l'IA englobe toutes les étapes, de la collecte des données à la surveillance à long terme. Cependant, le parcours central d'un modèle, de sa création à son exécution, comporte trois étapes clés. Les deux premières concernent l'apprentissage, tandis que la dernière consiste à mettre en pratique cet apprentissage.

L'entraînement de l'IA est la phase d'apprentissage fondamentale. Il s'agit d'un processus qui nécessite beaucoup de ressources de calcul, dans lequel un modèle analyse un ensemble de données massif pour apprendre des relations et des schémas. L'objectif est de créer un modèle précis et informé. Cela nécessite des accélérateurs matériels puissants (comme des GPU et des TPU) et peut prendre de quelques heures à plusieurs semaines.
Le réglage précis de l'IA est un raccourci pour l'entraînement. Il prend un modèle pré-entraîné puissant et l'adapte à une tâche plus spécifique à l'aide d'un ensemble de données plus petit et spécialisé. Cela permet de gagner beaucoup de temps et d'économiser des ressources par rapport à l'entraînement d'un modèle à partir de zéro.
L'inférence de l'IA est la phase d'exécution. Il utilise le modèle entraîné et affiné pour effectuer des prédictions rapides sur de nouvelles données "inédites". Chaque prédiction individuelle est beaucoup moins exigeante en termes de calcul que l'entraînement, mais la diffusion de millions de prédictions en temps réel nécessite une infrastructure hautement optimisée et évolutive.
Le service d'IA consiste à déployer et à gérer le modèle pour l'inférence. Cela implique souvent de créer un package pour le modèle, de configurer un point de terminaison d'API et de gérer l'infrastructure pour traiter les requêtes.

Ce tableau récapitule les principales différences :

	Formation sur l'IA	Réglage fin de l'IA	Inférence de l'IA	mise en service de l'IA
Objectif	Créez un modèle de toutes pièces.	Adapter un modèle pré-entraîné à une tâche spécifique	Utilisez un modèle entraîné pour effectuer des prédictions.	Déployez et gérez le modèle pour traiter les requêtes d'inférence.
Processus	Apprentissage itératif à partir d'un grand ensemble de données	Ajuste un modèle existant avec un ensemble de données plus petit.	Un seul "passage avant" rapide des nouvelles données.	Empaqueter le modèle et l'exposer en tant qu'API
Données	Ensembles de données volumineux, historiques et étiquetés	Des ensembles de données plus petits et spécifiques à une tâche.	Données réelles, non étiquetées et en direct.	N/A
Priorité commerciale	Précision et capacité du modèle	Efficacité et personnalisation	Vitesse (latence), évolutivité et rentabilité.	Fiabilité, évolutivité et facilité de gestion du point de terminaison d'inférence

Formation sur l'IA

Réglage fin de l'IA

Inférence de l'IA

mise en service de l'IA

Objectif

Créez un modèle de toutes pièces.

Adapter un modèle pré-entraîné à une tâche spécifique

Utilisez un modèle entraîné pour effectuer des prédictions.

Déployez et gérez le modèle pour traiter les requêtes d'inférence.

Processus

Apprentissage itératif à partir d'un grand ensemble de données

Ajuste un modèle existant avec un ensemble de données plus petit.

Un seul "passage avant" rapide des nouvelles données.

Empaqueter le modèle et l'exposer en tant qu'API

Données

Ensembles de données volumineux, historiques et étiquetés

Des ensembles de données plus petits et spécifiques à une tâche.

Données réelles, non étiquetées et en direct.

N/A

Priorité commerciale

Précision et capacité du modèle

Efficacité et personnalisation

Vitesse (latence), évolutivité et rentabilité.

Fiabilité, évolutivité et facilité de gestion du point de terminaison d'inférence

Comment fonctionne l'inférence de l'IA ?

L'inférence d'IA repose sur trois étapes qui transforment de nouvelles données en un résultat utile.

Prenons un exemple simple : un modèle d'IA conçu pour identifier des objets dans des photos.

Préparation des données d'entrée : de nouvelles données sont d'abord fournies, par exemple une photo que vous venez d'envoyer. Cette photo est instantanément préparée pour le modèle, ce qui peut signifier qu'elle est simplement redimensionnée aux dimensions exactes sur lesquelles le modèle a été entraîné.
Exécution du modèle : le modèle d'IA analyse ensuite la photo préparée. Il recherche des schémas (couleurs, formes, textures, etc.) qui correspondent à ce qu'il a appris pendant son entraînement. Cette analyse rapide est appelée "passe avant". Il s'agit d'une étape en lecture seule où le modèle applique ses connaissances sans rien apprendre de nouveau.
Génération de résultats : le modèle produit un résultat exploitable. Pour l'analyse de photos, il peut s'agir d'un score de probabilité (par exemple, 95 % de chances que l'image contienne un "chien"). Ce résultat est ensuite envoyé à l'application et affiché à l'utilisateur.

Bien qu'une inférence unique soit rapide, servir des millions d'utilisateurs en temps réel augmente la latence et les coûts, et nécessite du matériel optimisé. Les processeurs graphiques (GPU) spécialisés dans l'IA et les Tensor Processing Units de Google sont conçus pour gérer ces tâches efficacement, ainsi que l'orchestration avec Google Kubernetes Engine, ce qui contribue à augmenter le débit et à réduire la latence.

Types d'inférence d'IA

Inférence dans le cloud : pour la puissance et l'évolutivité

Il s'agit de l'approche la plus courante, dans laquelle l'inférence s'exécute sur de puissants serveurs distants dans un centre de données. Le cloud offre une évolutivité et des ressources de calcul immenses, ce qui le rend idéal pour gérer des ensembles de données massifs et des modèles complexes. Dans le cloud, il existe généralement deux modes d'inférence principaux :

Inférence en temps réel (en ligne) : traite instantanément les requêtes individuelles à mesure qu'elles arrivent, souvent en quelques millisecondes. C'est essentiel pour les applications interactives qui exigent un retour d'information immédiat.
Inférence par lot (hors connexion) : traite de grands volumes de données en une seule fois, généralement lorsque des réponses immédiates ne sont pas requises. C'est une méthode très économique pour les analyses périodiques ou les tâches planifiées.

Inférence en périphérie : pour la rapidité et la confidentialité

Cette approche effectue l'inférence directement sur l'appareil où les données sont générées, qu'il s'agisse d'un smartphone ou d'un capteur industriel. En évitant un aller-retour vers le cloud, l'inférence en périphérie offre des avantages uniques :

Latence réduite : les réponses sont presque instantanées, ce qui est essentiel pour des applications comme les véhicules autonomes ou les contrôles de fabrication en temps réel.
Confidentialité renforcée : les données sensibles (comme les examens médicaux, les photos personnelles ou les flux vidéo) peuvent être traitées sur l'appareil sans jamais être envoyées dans le cloud.
Réduction des coûts de bande passante : le traitement local des données réduit considérablement la quantité de données à importer et à télécharger.
Fonctionnalités hors connexion : l'application peut continuer à fonctionner même sans connexion Internet, ce qui assure une continuité des opérations dans les environnements distants ou déconnectés.

Relevez vos plus grands défis avec Google Cloud

Les nouveaux clients bénéficient de 300 $ de crédits à dépenser sur Google Cloud.

Comparatif de l'inférence d'IA

Pour vous aider à choisir l'approche la plus adaptée à vos besoins spécifiques, voici une comparaison rapide des principales caractéristiques et des cas d'utilisation de chaque type d'inférence d'IA :

Fonctionnalité	Inférence par lot	Inférence en temps réel	Inférence en périphérie
Emplacement principal	Cloud (centres de données)	Cloud (centres de données)	Appareil local (téléphone, capteur IoT, robot, etc.)
Latence/réactivité	Élevée (les prédictions sont renvoyées après le traitement du lot)	Très faible (de quelques millisecondes à quelques secondes par requête)	Extrêmement faible (quasi instantanée, sans saut de réseau)
Volume de données	Ensembles de données volumineux (plusieurs téraoctets)	Événements/requêtes individuels	Événements/requêtes individuels (sur l'appareil)
Flux des données	Les données sont envoyées au cloud, traitées, et les résultats sont renvoyés.	Chaque requête envoyée au cloud, traitée et renvoyée	Les données sont traitées sur l'appareil et les résultats sont utilisés sur l'appareil.
Cas d'utilisation types	Catégorisation de documents à grande échelle, analyse financière du jour au lendemain, maintenance prédictive périodique	Recommandations de produits, chatbots, traduction en direct, alertes de fraude en temps réel	Conduite autonome, caméras intelligentes, assistants vocaux hors connexion, contrôle qualité industriel
Principaux avantages	Rentable pour les tâches volumineuses et non urgentes	Réactivité immédiate pour les applications destinées aux utilisateurs	Latence minimale, confidentialité renforcée, capacité hors connexion, réduction des coûts de bande passante

Fonctionnalité

Inférence par lot

Inférence en temps réel

Inférence en périphérie

Emplacement principal

Cloud (centres de données)

Appareil local (téléphone, capteur IoT, robot, etc.)

Latence/réactivité

Élevée (les prédictions sont renvoyées après le traitement du lot)

Très faible (de quelques millisecondes à quelques secondes par requête)

Extrêmement faible (quasi instantanée, sans saut de réseau)

Volume de données

Ensembles de données volumineux (plusieurs téraoctets)

Événements/requêtes individuels

Événements/requêtes individuels (sur l'appareil)

Flux des données

Les données sont envoyées au cloud, traitées, et les résultats sont renvoyés.

Chaque requête envoyée au cloud, traitée et renvoyée

Les données sont traitées sur l'appareil et les résultats sont utilisés sur l'appareil.

Cas d'utilisation types

Catégorisation de documents à grande échelle, analyse financière du jour au lendemain, maintenance prédictive périodique

Recommandations de produits, chatbots, traduction en direct, alertes de fraude en temps réel

Conduite autonome, caméras intelligentes, assistants vocaux hors connexion, contrôle qualité industriel

Principaux avantages

Rentable pour les tâches volumineuses et non urgentes

Réactivité immédiate pour les applications destinées aux utilisateurs

Latence minimale, confidentialité renforcée, capacité hors connexion, réduction des coûts de bande passante

Cas d'utilisation pour les développeurs

L'inférence de l'IA transforme les secteurs en permettant de nouveaux niveaux d'automatisation, une prise de décision plus intelligente et des applications innovantes. Pour les développeurs d'entreprise, voici quelques domaines essentiels dans lesquels l'inférence génère une valeur commerciale concrète :

Détection des risques et des fraudes en temps réel

Analysez instantanément les transactions financières, le comportement des utilisateurs ou les journaux système pour identifier et signaler les activités suspectes. Cela permet une intervention proactive pour prévenir la fraude, le blanchiment d'argent ou les violations de sécurité.
Exemple : une société émettrice de cartes de crédit utilise l'inférence pour autoriser des transactions en quelques millisecondes, bloquant immédiatement les achats potentiellement frauduleux.

Hyperpersonnalisation et moteurs de recommandation

Offrez des expériences hautement personnalisées aux utilisateurs en prédisant leurs préférences en fonction de leurs interactions passées et du contexte en temps réel.
Exemple : les plates-formes d'e-commerce utilisent l'inférence pour suggérer des produits aux acheteurs, et les services de streaming recommandent des films en fonction des habitudes de visionnage, ce qui stimule l'engagement et les ventes.

Automatisation et agents basés sur l'IA

Déployez des modèles d'IA pour automatiser les tâches de routine, fournir une assistance intelligente ou interagir avec les utilisateurs à grande échelle.
Exemple : les services client utilisent des agents d'IA pour traiter les demandes courantes, ce qui permet aux agents humains de se concentrer sur les problèmes complexes. Les usines utilisent l'IA pour automatiser le contrôle qualité sur les chaînes de montage.

Maintenance et opérations prédictives

Analysez les données de capteurs provenant de machines, d'infrastructures ou de systèmes informatiques pour prévoir les défaillances, prédire la demande ou optimiser l'allocation des ressources avant que des problèmes ne surviennent.
Exemple : les fabricants utilisent l'inférence pour prédire quand un équipement doit être réparé, ce qui minimise les temps d'arrêt et prolonge la durée de vie des ressources. Les entreprises de logistique optimisent les itinéraires en fonction des prévisions de trafic en temps réel.

Génération et compréhension de contenu avancées

Exploitez l'IA pour créer de nouveaux contenus (texte, code, images, audio) ou pour comprendre en profondeur les données non structurées existantes.
Exemple : les développeurs utilisent des modèles de génération de code pour accélérer le développement de logiciels, ou les équipes marketing utilisent l'IA pour résumer de longs documents et personnaliser les textes publicitaires.

Comment Google Cloud peut vous aider pour l'inférence de l'IA

L'inférence de l'IA présente un ensemble distinct de défis techniques, y compris la gestion de la latence, le contrôle des coûts et l'assurance de l'évolutivité. Google Cloud offre un chemin flexible pour l'inférence, vous permettant de choisir les bons outils en fonction de la complexité de votre modèle, de vos besoins en termes de performances et de votre capacité opérationnelle. Vous pouvez commencer par des solutions entièrement gérées et adopter progressivement une infrastructure plus personnalisée à mesure que vos besoins évoluent.

Utilisez des API d'IA pré-entraînées et des modèles prédéfinis pour un déploiement rapide

Cette approche est idéale pour les développeurs de tous niveaux, y compris ceux qui débutent avec l'IA et qui souhaitent intégrer rapidement de puissantes fonctionnalités d'IA. Il suffit d'effectuer des appels d'API simples, sans avoir à gérer de modèles ni d'infrastructure.

Vertex AI Model Garden

Utilisez les modèles Gemini de Google et une sélection de modèles Open Source avec un simple point de terminaison d'API. Il gère les complexités liées à l'hébergement et au scaling, ce qui vous permet de vous concentrer sur votre application et d'obtenir des résultats performants pour les tâches d'IA générative.

Vertex AI Model Garden

Déployez des modèles personnalisés sur une infrastructure gérée

Cette option est destinée aux développeurs qui ont déjà créé un modèle personnalisé. Vous pouvez le déployer sur le service géré de Google Cloud, ce qui signifie que vous n'avez pas à gérer vous-même la configuration complexe du serveur ni l'orchestration. Vous pouvez vous concentrer sur votre modèle, et non sur l'infrastructure.

Vertex AI Prediction	Vertex AI Prediction est un service géré qui déploie des modèles de machine learning en tant que points de terminaison évolutifs, en utilisant des accélérateurs matériels tels que des GPU pour traiter rapidement les données en temps réel et par lots.
Cloud Run	Déployez des modèles conteneurisés avec autoscaling à zéro instance et la tarification à la requête, idéal pour les charges de travail très variables et intermittentes, ou les services Web simples.

Vertex AI Prediction

Vertex AI Prediction est un service géré qui déploie des modèles de machine learning en tant que points de terminaison évolutifs, en utilisant des accélérateurs matériels tels que des GPU pour traiter rapidement les données en temps réel et par lots.

Cloud Run

Déployez des modèles conteneurisés avec autoscaling à zéro instance et la tarification à la requête, idéal pour les charges de travail très variables et intermittentes, ou les services Web simples.

Créez une plate-forme de service personnalisée pour un contrôle maximal

Offre aux développeurs et aux équipes MLOps un contrôle précis et une flexibilité pour déployer, gérer et faire évoluer des services d'inférence conteneurisés personnalisés, souvent avec du matériel spécialisé, dans des environnements cloud ou hybrides.

Google Kubernetes Engine (GKE)

GKE offre un contrôle précis sur le matériel, y compris les CPU, les GPU et les TPU, ce qui est idéal pour personnaliser et optimiser les performances et le coût de l'inférence de modèles de machine learning très volumineux ou complexes.

Google Kubernetes Engine (GKE)

Effectuez des inférences directement dans votre entrepôt de données à l'aide de SQL

Si vous utilisez SQL, vous pouvez désormais obtenir des prédictions à partir de modèles d'IA directement là où se trouvent vos données. Vous n'avez donc pas besoin de déplacer les données vers une autre plate-forme, ce qui simplifie votre workflow.

BigQuery ML

BigQuery vous permet d'exécuter des modèles de machine learning directement sur vos données à l'aide de commandes SQL simples, sans avoir à déplacer les données, ce qui réduit la complexité et la latence. C'est une méthode très efficace pour les tâches de traitement par lot telles que la segmentation de la clientèle ou la prévision de la demande, en particulier lorsque vos données sont déjà stockées dans BigQuery.