L'inférence de l'IA est la partie "exécution" de l'intelligence artificielle. C'est le moment où un modèle entraîné cesse d'apprendre et commence à fonctionner, en transformant ses connaissances en résultats concrets.
Pour faire simple, si l'entraînement consiste à enseigner une nouvelle compétence à une IA, l'inférence correspond à l'utilisation de cette compétence par l'IA pour effectuer une tâche. Il prend en entrée de nouvelles données (comme une photo ou un texte) et produit instantanément un résultat, comme une prédiction, une photo ou une décision. C'est là que l'IA apporte de la valeur ajoutée. Pour tous ceux qui développent des solutions d'IA, il est essentiel de comprendre comment rendre l'inférence rapide, évolutive et économique pour créer des solutions efficaces.
Le cycle de vie complet de l'IA englobe toutes les étapes, de la collecte des données à la surveillance à long terme. Cependant, le parcours central d'un modèle, de sa création à son exécution, comporte trois étapes clés. Les deux premières concernent l'apprentissage, tandis que la dernière consiste à mettre en pratique cet apprentissage.
Ce tableau récapitule les principales différences :
Formation sur l'IA | Réglage fin de l'IA | Inférence de l'IA | mise en service de l'IA | |
Objectif | Créez un modèle de toutes pièces. | Adapter un modèle pré-entraîné à une tâche spécifique | Utilisez un modèle entraîné pour effectuer des prédictions. | Déployez et gérez le modèle pour traiter les requêtes d'inférence. |
Processus | Apprentissage itératif à partir d'un grand ensemble de données | Ajuste un modèle existant avec un ensemble de données plus petit. | Un seul "passage avant" rapide des nouvelles données. | Empaqueter le modèle et l'exposer en tant qu'API |
Données | Ensembles de données volumineux, historiques et étiquetés | Des ensembles de données plus petits et spécifiques à une tâche. | Données réelles, non étiquetées et en direct. | N/A |
Priorité commerciale | Précision et capacité du modèle | Efficacité et personnalisation | Vitesse (latence), évolutivité et rentabilité. | Fiabilité, évolutivité et facilité de gestion du point de terminaison d'inférence |
Formation sur l'IA
Réglage fin de l'IA
Inférence de l'IA
mise en service de l'IA
Objectif
Créez un modèle de toutes pièces.
Adapter un modèle pré-entraîné à une tâche spécifique
Utilisez un modèle entraîné pour effectuer des prédictions.
Déployez et gérez le modèle pour traiter les requêtes d'inférence.
Processus
Apprentissage itératif à partir d'un grand ensemble de données
Ajuste un modèle existant avec un ensemble de données plus petit.
Un seul "passage avant" rapide des nouvelles données.
Empaqueter le modèle et l'exposer en tant qu'API
Données
Ensembles de données volumineux, historiques et étiquetés
Des ensembles de données plus petits et spécifiques à une tâche.
Données réelles, non étiquetées et en direct.
N/A
Priorité commerciale
Précision et capacité du modèle
Efficacité et personnalisation
Vitesse (latence), évolutivité et rentabilité.
Fiabilité, évolutivité et facilité de gestion du point de terminaison d'inférence
L'inférence d'IA repose sur trois étapes qui transforment de nouvelles données en un résultat utile.
Prenons un exemple simple : un modèle d'IA conçu pour identifier des objets dans des photos.
Bien qu'une inférence unique soit rapide, servir des millions d'utilisateurs en temps réel augmente la latence et les coûts, et nécessite du matériel optimisé. Les processeurs graphiques (GPU) spécialisés dans l'IA et les Tensor Processing Units de Google sont conçus pour gérer ces tâches efficacement, ainsi que l'orchestration avec Google Kubernetes Engine, ce qui contribue à augmenter le débit et à réduire la latence.
Il s'agit de l'approche la plus courante, dans laquelle l'inférence s'exécute sur de puissants serveurs distants dans un centre de données. Le cloud offre une évolutivité et des ressources de calcul immenses, ce qui le rend idéal pour gérer des ensembles de données massifs et des modèles complexes. Dans le cloud, il existe généralement deux modes d'inférence principaux :
Cette approche effectue l'inférence directement sur l'appareil où les données sont générées, qu'il s'agisse d'un smartphone ou d'un capteur industriel. En évitant un aller-retour vers le cloud, l'inférence en périphérie offre des avantages uniques :
Pour vous aider à choisir l'approche la plus adaptée à vos besoins spécifiques, voici une comparaison rapide des principales caractéristiques et des cas d'utilisation de chaque type d'inférence d'IA :
Fonctionnalité | Inférence par lot | Inférence en temps réel | Inférence en périphérie |
Emplacement principal | Cloud (centres de données) | Cloud (centres de données) | Appareil local (téléphone, capteur IoT, robot, etc.) |
Latence/réactivité | Élevée (les prédictions sont renvoyées après le traitement du lot) | Très faible (de quelques millisecondes à quelques secondes par requête) | Extrêmement faible (quasi instantanée, sans saut de réseau) |
Volume de données | Ensembles de données volumineux (plusieurs téraoctets) | Événements/requêtes individuels | Événements/requêtes individuels (sur l'appareil) |
Flux des données | Les données sont envoyées au cloud, traitées, et les résultats sont renvoyés. | Chaque requête envoyée au cloud, traitée et renvoyée | Les données sont traitées sur l'appareil et les résultats sont utilisés sur l'appareil. |
Cas d'utilisation types | Catégorisation de documents à grande échelle, analyse financière du jour au lendemain, maintenance prédictive périodique | Recommandations de produits, chatbots, traduction en direct, alertes de fraude en temps réel | Conduite autonome, caméras intelligentes, assistants vocaux hors connexion, contrôle qualité industriel |
Principaux avantages | Rentable pour les tâches volumineuses et non urgentes | Réactivité immédiate pour les applications destinées aux utilisateurs | Latence minimale, confidentialité renforcée, capacité hors connexion, réduction des coûts de bande passante |
Fonctionnalité
Inférence par lot
Inférence en temps réel
Inférence en périphérie
Emplacement principal
Cloud (centres de données)
Cloud (centres de données)
Appareil local (téléphone, capteur IoT, robot, etc.)
Latence/réactivité
Élevée (les prédictions sont renvoyées après le traitement du lot)
Très faible (de quelques millisecondes à quelques secondes par requête)
Extrêmement faible (quasi instantanée, sans saut de réseau)
Volume de données
Ensembles de données volumineux (plusieurs téraoctets)
Événements/requêtes individuels
Événements/requêtes individuels (sur l'appareil)
Flux des données
Les données sont envoyées au cloud, traitées, et les résultats sont renvoyés.
Chaque requête envoyée au cloud, traitée et renvoyée
Les données sont traitées sur l'appareil et les résultats sont utilisés sur l'appareil.
Cas d'utilisation types
Catégorisation de documents à grande échelle, analyse financière du jour au lendemain, maintenance prédictive périodique
Recommandations de produits, chatbots, traduction en direct, alertes de fraude en temps réel
Conduite autonome, caméras intelligentes, assistants vocaux hors connexion, contrôle qualité industriel
Principaux avantages
Rentable pour les tâches volumineuses et non urgentes
Réactivité immédiate pour les applications destinées aux utilisateurs
Latence minimale, confidentialité renforcée, capacité hors connexion, réduction des coûts de bande passante
L'inférence de l'IA transforme les secteurs en permettant de nouveaux niveaux d'automatisation, une prise de décision plus intelligente et des applications innovantes. Pour les développeurs d'entreprise, voici quelques domaines essentiels dans lesquels l'inférence génère une valeur commerciale concrète :
L'inférence de l'IA présente un ensemble distinct de défis techniques, y compris la gestion de la latence, le contrôle des coûts et l'assurance de l'évolutivité. Google Cloud offre un chemin flexible pour l'inférence, vous permettant de choisir les bons outils en fonction de la complexité de votre modèle, de vos besoins en termes de performances et de votre capacité opérationnelle. Vous pouvez commencer par des solutions entièrement gérées et adopter progressivement une infrastructure plus personnalisée à mesure que vos besoins évoluent.
Cette approche est idéale pour les développeurs de tous niveaux, y compris ceux qui débutent avec l'IA et qui souhaitent intégrer rapidement de puissantes fonctionnalités d'IA. Il suffit d'effectuer des appels d'API simples, sans avoir à gérer de modèles ni d'infrastructure.
Utilisez les modèles Gemini de Google et une sélection de modèles Open Source avec un simple point de terminaison d'API. Il gère les complexités liées à l'hébergement et au scaling, ce qui vous permet de vous concentrer sur votre application et d'obtenir des résultats performants pour les tâches d'IA générative. |
Utilisez les modèles Gemini de Google et une sélection de modèles Open Source avec un simple point de terminaison d'API. Il gère les complexités liées à l'hébergement et au scaling, ce qui vous permet de vous concentrer sur votre application et d'obtenir des résultats performants pour les tâches d'IA générative.
Cette option est destinée aux développeurs qui ont déjà créé un modèle personnalisé. Vous pouvez le déployer sur le service géré de Google Cloud, ce qui signifie que vous n'avez pas à gérer vous-même la configuration complexe du serveur ni l'orchestration. Vous pouvez vous concentrer sur votre modèle, et non sur l'infrastructure.
Vertex AI Prediction est un service géré qui déploie des modèles de machine learning en tant que points de terminaison évolutifs, en utilisant des accélérateurs matériels tels que des GPU pour traiter rapidement les données en temps réel et par lots. | |
Déployez des modèles conteneurisés avec autoscaling à zéro instance et la tarification à la requête, idéal pour les charges de travail très variables et intermittentes, ou les services Web simples. |
Vertex AI Prediction est un service géré qui déploie des modèles de machine learning en tant que points de terminaison évolutifs, en utilisant des accélérateurs matériels tels que des GPU pour traiter rapidement les données en temps réel et par lots.
Déployez des modèles conteneurisés avec autoscaling à zéro instance et la tarification à la requête, idéal pour les charges de travail très variables et intermittentes, ou les services Web simples.
Offre aux développeurs et aux équipes MLOps un contrôle précis et une flexibilité pour déployer, gérer et faire évoluer des services d'inférence conteneurisés personnalisés, souvent avec du matériel spécialisé, dans des environnements cloud ou hybrides.
GKE offre un contrôle précis sur le matériel, y compris les CPU, les GPU et les TPU, ce qui est idéal pour personnaliser et optimiser les performances et le coût de l'inférence de modèles de machine learning très volumineux ou complexes. |
GKE offre un contrôle précis sur le matériel, y compris les CPU, les GPU et les TPU, ce qui est idéal pour personnaliser et optimiser les performances et le coût de l'inférence de modèles de machine learning très volumineux ou complexes.
Si vous utilisez SQL, vous pouvez désormais obtenir des prédictions à partir de modèles d'IA directement là où se trouvent vos données. Vous n'avez donc pas besoin de déplacer les données vers une autre plate-forme, ce qui simplifie votre workflow.
BigQuery vous permet d'exécuter des modèles de machine learning directement sur vos données à l'aide de commandes SQL simples, sans avoir à déplacer les données, ce qui réduit la complexité et la latence. C'est une méthode très efficace pour les tâches de traitement par lot telles que la segmentation de la clientèle ou la prévision de la demande, en particulier lorsque vos données sont déjà stockées dans BigQuery. |
BigQuery vous permet d'exécuter des modèles de machine learning directement sur vos données à l'aide de commandes SQL simples, sans avoir à déplacer les données, ce qui réduit la complexité et la latence. C'est une méthode très efficace pour les tâches de traitement par lot telles que la segmentation de la clientèle ou la prévision de la demande, en particulier lorsque vos données sont déjà stockées dans BigQuery.
Vous souhaitez améliorer vos compétences en inférence d'IA ? Voici quelques ressources utiles pour en savoir plus et vous lancer :
Profitez de 300 $ de crédits gratuits et de plus de 20 produits Always Free pour commencer à créer des applications sur Google Cloud.