Qu'est-ce que l'inférence de l'IA ?

L'inférence de l'IA est la partie "exécution" de l'intelligence artificielle. C'est le moment où un modèle entraîné cesse d'apprendre et commence à fonctionner, en transformant ses connaissances en résultats concrets.

Pour faire simple, si l'entraînement consiste à enseigner une nouvelle compétence à une IA, l'inférence correspond à l'utilisation de cette compétence par l'IA pour effectuer une tâche. Il prend en entrée de nouvelles données (comme une photo ou un texte) et produit instantanément un résultat, comme une prédiction, une photo ou une décision. C'est là que l'IA apporte de la valeur ajoutée. Pour tous ceux qui développent des solutions d'IA, il est essentiel de comprendre comment rendre l'inférence rapide, évolutive et économique pour créer des solutions efficaces. Par exemple, un développeur d'entreprise peut utiliser l'inférence d'IA sur Google Kubernetes Engine (GKE) pour créer un système qui analyse les achats des clients en temps réel et propose des remises personnalisées au moment du paiement, ce qui augmente les ventes et la satisfaction client.

"Entraînement de l'IA", "Affinage", "Inférence" et "Mise en service"

Le cycle de vie complet de l'IA englobe toutes les étapes, de la collecte des données à la surveillance à long terme. Cependant, le parcours central d'un modèle, de sa création à son exécution, comporte trois étapes clés. Les deux premières concernent l'apprentissage, tandis que la dernière consiste à mettre en pratique cet apprentissage.

  • L'entraînement de l'IA est la phase d'apprentissage fondamentale. Il s'agit d'un processus qui nécessite beaucoup de ressources de calcul, dans lequel un modèle analyse un ensemble de données massif pour apprendre des relations et des schémas. L'objectif est de créer un modèle précis et informé. Cela nécessite des accélérateurs matériels puissants (comme des GPU et des TPU) et peut prendre de quelques heures à plusieurs semaines.
  • Le réglage précis de l'IA est un raccourci pour l'entraînement. Il prend un modèle pré-entraîné puissant et l'adapte à une tâche plus spécifique à l'aide d'un ensemble de données plus petit et spécialisé. Cela permet de gagner beaucoup de temps et d'économiser des ressources par rapport à l'entraînement d'un modèle à partir de zéro.
  • L'inférence de l'IA est la phase d'exécution. Il utilise le modèle entraîné et affiné pour effectuer des prédictions rapides sur de nouvelles données "inédites". Chaque prédiction individuelle est beaucoup moins exigeante en termes de calcul que l'entraînement, mais la diffusion de millions de prédictions en temps réel nécessite une infrastructure hautement optimisée et évolutive.
  • Le service d'IA consiste à déployer et à gérer le modèle pour l'inférence. Cela implique souvent de créer un package pour le modèle, de configurer un point de terminaison d'API et de gérer l'infrastructure pour traiter les requêtes.

Ce tableau récapitule les principales différences :

Formation sur l'IA

Réglage fin de l'IA

Inférence de l'IA

mise en service de l'IA

Objectif

Créez un modèle de toutes pièces.

Adapter un modèle pré-entraîné à une tâche spécifique

Utilisez un modèle entraîné pour effectuer des prédictions.

Déployez et gérez le modèle pour traiter les requêtes d'inférence.

Processus

Apprentissage itératif à partir d'un grand ensemble de données

Ajuste un modèle existant avec un ensemble de données plus petit.

Un seul "passage avant" rapide des nouvelles données.


Empaqueter le modèle et l'exposer en tant qu'API

Données

Ensembles de données volumineux, historiques et étiquetés

Des ensembles de données plus petits et spécifiques à une tâche.

Données réelles, non étiquetées et en direct.

N/A


Priorité commerciale

Précision et capacité du modèle

Efficacité et personnalisation

Vitesse (latence), évolutivité et rentabilité.

Fiabilité, évolutivité et facilité de gestion du point de terminaison d'inférence

Formation sur l'IA

Réglage fin de l'IA

Inférence de l'IA

mise en service de l'IA

Objectif

Créez un modèle de toutes pièces.

Adapter un modèle pré-entraîné à une tâche spécifique

Utilisez un modèle entraîné pour effectuer des prédictions.

Déployez et gérez le modèle pour traiter les requêtes d'inférence.

Processus

Apprentissage itératif à partir d'un grand ensemble de données

Ajuste un modèle existant avec un ensemble de données plus petit.

Un seul "passage avant" rapide des nouvelles données.


Empaqueter le modèle et l'exposer en tant qu'API

Données

Ensembles de données volumineux, historiques et étiquetés

Des ensembles de données plus petits et spécifiques à une tâche.

Données réelles, non étiquetées et en direct.

N/A


Priorité commerciale

Précision et capacité du modèle

Efficacité et personnalisation

Vitesse (latence), évolutivité et rentabilité.

Fiabilité, évolutivité et facilité de gestion du point de terminaison d'inférence

Comment fonctionne l'inférence de l'IA ?

L'inférence d'IA repose sur trois étapes qui transforment de nouvelles données en un résultat utile.

Prenons un exemple simple : un modèle d'IA conçu pour identifier des objets dans des photos.

  1. Préparation des données d'entrée : de nouvelles données sont fournies, par exemple une photo que vous venez d'envoyer. Cette photo est instantanément préparée pour le modèle, ce qui peut signifier qu'elle est simplement redimensionnée aux dimensions exactes sur lesquelles le modèle a été entraîné.
  2. Exécution du modèle : le modèle d'IA analyse ensuite la photo préparée. Il recherche des schémas (couleurs, formes, textures, etc.) qui correspondent à ce qu'il a appris pendant son entraînement. Cette analyse rapide est appelée "passe avant". Il s'agit d'une étape en lecture seule où le modèle applique ses connaissances sans rien apprendre de nouveau.
  3. Génération de résultats : le modèle produit un résultat exploitable. Pour l'analyse de photos, il peut s'agir d'un score de probabilité (par exemple, 95 % de chances que l'image contienne un "chien"). Ce résultat est ensuite envoyé à l'application et affiché à l'utilisateur.

Bien qu'une inférence unique soit rapide, servir des millions d'utilisateurs en temps réel augmente la latence et les coûts, et nécessite du matériel optimisé. Les processeurs graphiques (GPU) spécialisés dans l'IA et les Tensor Processing Units de Google sont conçus pour gérer ces tâches efficacement, ainsi que l'orchestration avec Google Kubernetes Engine, ce qui contribue à augmenter le débit et à réduire la latence.

Types d'inférence d'IA

Inférence dans le cloud : pour la puissance et l'évolutivité

Il s'agit de l'approche la plus courante, dans laquelle l'inférence s'exécute sur de puissants serveurs distants dans un centre de données. Le cloud offre une évolutivité et des ressources de calcul immenses, ce qui le rend idéal pour gérer des ensembles de données massifs et des modèles complexes. Dans le cloud, il existe généralement deux modes d'inférence principaux :

  • Inférence en temps réel (en ligne) : traite instantanément les requêtes individuelles à mesure qu'elles arrivent, souvent en quelques millisecondes. C'est essentiel pour les applications interactives qui exigent un retour d'information immédiat.
  • Inférence par lot (hors connexion) : traite de grands volumes de données en une seule fois, généralement lorsque des réponses immédiates ne sont pas requises. C'est une méthode très économique pour les analyses périodiques ou les tâches planifiées.

Inférence en périphérie : pour la rapidité et la confidentialité

Cette approche effectue l'inférence directement sur l'appareil où les données sont générées, qu'il s'agisse d'un smartphone ou d'un capteur industriel. En évitant un aller-retour vers le cloud, l'inférence en périphérie offre des avantages uniques :

  • Latence réduite : les réponses sont presque instantanées, ce qui est essentiel pour des applications comme les véhicules autonomes ou les contrôles de fabrication en temps réel.
  • Confidentialité renforcée : les données sensibles (comme les examens médicaux, les photos personnelles ou les flux vidéo) peuvent être traitées sur l'appareil sans jamais être envoyées dans le cloud.
  • Réduction des coûts de bande passante : le traitement local des données réduit considérablement la quantité de données à importer et à télécharger.
  • Fonctionnalités hors connexion : l'application peut continuer à fonctionner même sans connexion Internet, ce qui assure une continuité des opérations dans les environnements distants ou déconnectés.

Relevez vos plus grands défis avec Google Cloud

Les nouveaux clients bénéficient de 300 $ de crédits à dépenser sur Google Cloud.

Comparatif de l'inférence d'IA

Pour vous aider à choisir l'approche la plus adaptée à vos besoins spécifiques, voici une comparaison rapide des principales caractéristiques et des cas d'utilisation de chaque type d'inférence d'IA :

Fonctionnalité

Inférence par lot

Inférence en temps réel

Inférence en périphérie

Emplacement principal

Cloud (centres de données)

Cloud (centres de données)

Appareil local (téléphone, capteur IoT, robot, etc.)

Latence/réactivité

Élevée (les prédictions sont renvoyées après le traitement du lot)


Très faible (de quelques millisecondes à quelques secondes par requête)

Extrêmement faible (quasi instantanée, sans saut de réseau)

Volume de données

Ensembles de données volumineux (plusieurs téraoctets)

Événements/requêtes individuels

Événements/requêtes individuels (sur l'appareil)

Flux des données

Les données sont envoyées au cloud, traitées, et les résultats sont renvoyés.

Chaque requête envoyée au cloud, traitée et renvoyée

Les données sont traitées sur l'appareil et les résultats sont utilisés sur l'appareil.

Cas d'utilisation types

Catégorisation de documents à grande échelle, analyse financière du jour au lendemain, maintenance prédictive périodique

Recommandations de produits, chatbots, traduction en direct, alertes de fraude en temps réel

Conduite autonome, caméras intelligentes, assistants vocaux hors connexion, contrôle qualité industriel

Principaux avantages

Rentable pour les tâches volumineuses et non urgentes

Réactivité immédiate pour les applications destinées aux utilisateurs

Latence minimale, confidentialité renforcée, capacité hors connexion, réduction des coûts de bande passante

Fonctionnalité

Inférence par lot

Inférence en temps réel

Inférence en périphérie

Emplacement principal

Cloud (centres de données)

Cloud (centres de données)

Appareil local (téléphone, capteur IoT, robot, etc.)

Latence/réactivité

Élevée (les prédictions sont renvoyées après le traitement du lot)


Très faible (de quelques millisecondes à quelques secondes par requête)

Extrêmement faible (quasi instantanée, sans saut de réseau)

Volume de données

Ensembles de données volumineux (plusieurs téraoctets)

Événements/requêtes individuels

Événements/requêtes individuels (sur l'appareil)

Flux des données

Les données sont envoyées au cloud, traitées, et les résultats sont renvoyés.

Chaque requête envoyée au cloud, traitée et renvoyée

Les données sont traitées sur l'appareil et les résultats sont utilisés sur l'appareil.

Cas d'utilisation types

Catégorisation de documents à grande échelle, analyse financière du jour au lendemain, maintenance prédictive périodique

Recommandations de produits, chatbots, traduction en direct, alertes de fraude en temps réel

Conduite autonome, caméras intelligentes, assistants vocaux hors connexion, contrôle qualité industriel

Principaux avantages

Rentable pour les tâches volumineuses et non urgentes

Réactivité immédiate pour les applications destinées aux utilisateurs

Latence minimale, confidentialité renforcée, capacité hors connexion, réduction des coûts de bande passante

Cas d'utilisation pour les développeurs

L'inférence de l'IA transforme les secteurs en permettant de nouveaux niveaux d'automatisation, une prise de décision plus intelligente et des applications innovantes. Pour les développeurs d'entreprise, voici quelques domaines essentiels dans lesquels l'inférence génère une valeur commerciale concrète :

  • Analysez instantanément les transactions financières, le comportement des utilisateurs ou les journaux système pour identifier et signaler les activités suspectes. Cela permet une intervention proactive pour prévenir la fraude, le blanchiment d'argent ou les violations de sécurité.
  • Exemple : une société émettrice de cartes de crédit utilise l'inférence pour autoriser des transactions en quelques millisecondes, bloquant immédiatement les achats potentiellement frauduleux.


  • Offrez des expériences hautement personnalisées aux utilisateurs en prédisant leurs préférences en fonction de leurs interactions passées et du contexte en temps réel.
  • Exemple : les plates-formes d'e-commerce utilisent l'inférence pour suggérer des produits aux acheteurs, et les services de streaming recommandent des films en fonction des habitudes de visionnage, ce qui stimule l'engagement et les ventes.


  • Déployez des modèles d'IA pour automatiser les tâches de routine, fournir une assistance intelligente ou interagir avec les utilisateurs à grande échelle.
  • Exemple : les services client utilisent des agents d'IA pour traiter les demandes courantes, ce qui permet aux agents humains de se concentrer sur les problèmes complexes. Les usines utilisent l'IA pour automatiser le contrôle qualité sur les chaînes de montage.


  •  Analysez les données de capteurs provenant de machines, d'infrastructures ou de systèmes informatiques pour prévoir les défaillances, prédire la demande ou optimiser l'allocation des ressources avant que des problèmes ne surviennent.
  • Exemple : les fabricants utilisent l'inférence pour prédire quand un équipement doit être réparé, ce qui minimise les temps d'arrêt et prolonge la durée de vie des ressources. Les entreprises de logistique optimisent les itinéraires en fonction des prévisions de trafic en temps réel.


  • Exploitez l'IA pour créer de nouveaux contenus (texte, code, images, audio) ou pour comprendre en profondeur les données non structurées existantes.
  • Exemple : les développeurs utilisent des modèles de génération de code pour accélérer le développement de logiciels, ou les équipes marketing utilisent l'IA pour résumer de longs documents et personnaliser les textes publicitaires.
Quel problème essayez-vous de résoudre ?
What you'll get:
Guide par étapes
Architecture de référence
Solutions pré-intégrées disponibles
Ce service a été créé avec Vertex AI. Vous devez avoir au moins 18 ans pour l'utiliser. Ne saisissez pas d'informations sensibles, confidentielles ni personnelles.

Les avantages de Google Cloud

Google Cloud propose une suite complète d'outils et de services qui aident les développeurs et les organisations à créer, déployer et gérer des charges de travail d'inférence d'IA de manière efficace et à grande échelle. Les fonctionnalités d'inférence sont profondément intégrées dans de nombreuses offres :

Produits et solutions associés

Produit Google Cloud

Approche d'inférence prise en charge

Idéal lorsque vous devez

Exemple de cas d'utilisation pour l'inférence

Tous les types d'inférence (cloud et hybride)

Bénéficiez d'un contrôle et d'une flexibilité ultimes pour déployer, gérer et faire évoluer des services d'inférence conteneurisés personnalisés, souvent avec du matériel spécialisé, dans des environnements cloud ou hybrides.

Déployer et mettre à l'échelle un modèle d'IA sur mesure pour la détection d'anomalies en temps réel dans un système industriel complexe

Inférence cloud en temps réel (sans serveur)

Déployez des modèles conteneurisés avec autoscaling jusqu'à zéro et tarification à la requête, idéal pour les charges de travail très variables et intermittentes, ou les services Web simples.


Diffuser un modèle de petite à moyenne taille pour une application Web dont le trafic fluctue considérablement, tout en assurant la rentabilité


Inférence cloud en temps réel et par lot

Profitez d'une accélération flexible et hautes performances pour un large éventail de modèles et de frameworks d'IA.

Traitez rapidement des images haute résolution pour des diagnostics médicaux ou accélérez la modélisation financière complexe.


Inférence cloud par lot (entrepôt de données)

Effectuez des inférences directement sur les données déjà présentes dans votre entrepôt de données à l'aide de SQL, ce qui élimine les déplacements de données.


Prédisez le taux de désabonnement des clients directement à partir des données de votre CRM dans BigQuery.


Inférence cloud en temps réel (tâches spécifiques)

Intégrez facilement des fonctionnalités d'IA avancées (vision, langage, parole, etc.) dans vos applications sans avoir à créer ni à entraîner de modèles.

Traduisez automatiquement les messages de chat des clients en temps réel ou analysez les sentiments exprimés dans les posts sur les réseaux sociaux.


Inférence cloud en temps réel et par lot (modèles volumineux)

Obtenez des performances et une rentabilité maximales lors de la diffusion de modèles de deep learning très volumineux et complexes, en particulier de grands modèles de langage (LLM).

Alimentez les réponses en temps réel d'un chatbot d'IA générative de pointe.


Solutions Edge (comme Coral, GDC Edge)


Inférence en périphérie

Activez la latence ultra-faible, la confidentialité renforcée ou les fonctionnalités hors connexion en exécutant les modèles directement sur les appareils.


Effectuez une reconnaissance instantanée d'objets sur une caméra connectée sans envoyer de vidéo dans le cloud.


Préparation des données pour l'inférence cloud par lot

Traitez et préparez efficacement de grandes quantités de données pour des jobs d'inférence par lot à grande échelle.


Prétraitez des pétaoctets de données de capteurs avant de les utiliser dans un modèle de maintenance prédictive.

Produit Google Cloud

Approche d'inférence prise en charge

Idéal lorsque vous devez

Exemple de cas d'utilisation pour l'inférence

Tous les types d'inférence (cloud et hybride)

Bénéficiez d'un contrôle et d'une flexibilité ultimes pour déployer, gérer et faire évoluer des services d'inférence conteneurisés personnalisés, souvent avec du matériel spécialisé, dans des environnements cloud ou hybrides.

Déployer et mettre à l'échelle un modèle d'IA sur mesure pour la détection d'anomalies en temps réel dans un système industriel complexe

Inférence cloud en temps réel (sans serveur)

Déployez des modèles conteneurisés avec autoscaling jusqu'à zéro et tarification à la requête, idéal pour les charges de travail très variables et intermittentes, ou les services Web simples.


Diffuser un modèle de petite à moyenne taille pour une application Web dont le trafic fluctue considérablement, tout en assurant la rentabilité


Inférence cloud en temps réel et par lot

Profitez d'une accélération flexible et hautes performances pour un large éventail de modèles et de frameworks d'IA.

Traitez rapidement des images haute résolution pour des diagnostics médicaux ou accélérez la modélisation financière complexe.


Inférence cloud par lot (entrepôt de données)

Effectuez des inférences directement sur les données déjà présentes dans votre entrepôt de données à l'aide de SQL, ce qui élimine les déplacements de données.


Prédisez le taux de désabonnement des clients directement à partir des données de votre CRM dans BigQuery.


Inférence cloud en temps réel (tâches spécifiques)

Intégrez facilement des fonctionnalités d'IA avancées (vision, langage, parole, etc.) dans vos applications sans avoir à créer ni à entraîner de modèles.

Traduisez automatiquement les messages de chat des clients en temps réel ou analysez les sentiments exprimés dans les posts sur les réseaux sociaux.


Inférence cloud en temps réel et par lot (modèles volumineux)

Obtenez des performances et une rentabilité maximales lors de la diffusion de modèles de deep learning très volumineux et complexes, en particulier de grands modèles de langage (LLM).

Alimentez les réponses en temps réel d'un chatbot d'IA générative de pointe.


Solutions Edge (comme Coral, GDC Edge)


Inférence en périphérie

Activez la latence ultra-faible, la confidentialité renforcée ou les fonctionnalités hors connexion en exécutant les modèles directement sur les appareils.


Effectuez une reconnaissance instantanée d'objets sur une caméra connectée sans envoyer de vidéo dans le cloud.


Préparation des données pour l'inférence cloud par lot

Traitez et préparez efficacement de grandes quantités de données pour des jobs d'inférence par lot à grande échelle.


Prétraitez des pétaoctets de données de capteurs avant de les utiliser dans un modèle de maintenance prédictive.

Vertex AI

Vertex AI est la plate-forme d'IA unifiée de Google Cloud. Il fournit des outils complets pour créer, déployer et gérer des modèles de ML, ce qui en fait le service de référence pour la plupart des besoins d'inférence dans le cloud.

Fonctionnalité Vertex AI

Approche d'inférence

Idéal lorsque vous devez

Exemple de cas d'utilisation pour l'inférence

Inférence cloud en temps réel

Déployez des modèles personnalisés et obtenez des prédictions en temps réel à faible latence à partir d'un point de terminaison géré.

Recommandez instantanément des produits à un utilisateur qui navigue sur un site Web.



Inférence cloud par lot

Traitez de grands ensembles de données de manière économique sans avoir besoin de résultats en temps réel.

Analysez toutes les transactions client d'hier pour détecter des schémas de fraude.

Inférence cloud en temps réel et par lot (IA générative)

Exploitez rapidement des modèles pré-entraînés performants pour les tâches courantes ou d'IA générative sans avoir à les entraîner à partir de zéro.

Générez des textes marketing, résumez de longs documents ou créez des extraits de code.


Fonctionnalité Vertex AI

Approche d'inférence

Idéal lorsque vous devez

Exemple de cas d'utilisation pour l'inférence

Inférence cloud en temps réel

Déployez des modèles personnalisés et obtenez des prédictions en temps réel à faible latence à partir d'un point de terminaison géré.

Recommandez instantanément des produits à un utilisateur qui navigue sur un site Web.



Inférence cloud par lot

Traitez de grands ensembles de données de manière économique sans avoir besoin de résultats en temps réel.

Analysez toutes les transactions client d'hier pour détecter des schémas de fraude.

Inférence cloud en temps réel et par lot (IA générative)

Exploitez rapidement des modèles pré-entraînés performants pour les tâches courantes ou d'IA générative sans avoir à les entraîner à partir de zéro.

Générez des textes marketing, résumez de longs documents ou créez des extraits de code.


Explorer les ressources sur l'inférence d'IA

Vous souhaitez améliorer vos compétences en inférence d'IA ? Voici quelques ressources utiles pour en savoir plus et vous lancer :

Passez à l'étape suivante

Profitez de 300 $ de crédits gratuits et de plus de 20 produits Always Free pour commencer à créer des applications sur Google Cloud.

  • Faites des économies grâce à notre approche transparente concernant la tarification
  • Le paiement à l'usage de Google Cloud permet de réaliser des économies automatiques basées sur votre utilisation mensuelle et des tarifs réduits pour les ressources prépayées. Contactez-nous dès aujourd'hui afin d'obtenir un devis.
Google Cloud