Qu'est-ce que le context engineering de l'IA ?

Dernière mise à jour : 23/4/2026

Le context engineering est l'architecture du sens de l'intelligence artificielle. Alors que les premières utilisations de l'IA reposaient sur le choix des mots, les systèmes modernes sur Google Cloud nécessitent un environnement de données structurées pour fonctionner correctement. On peut l'assimiler à la création d'un espace de travail high-tech pour un collaborateur numérique. Au lieu de lui confier une tâche sur un simple post-it, vous lui fournissez un classeur étiqueté dans BigQuery, une connexion en temps réel à l'aide de Gemini Enterprise Agent Platform et un ensemble de règles claires. Ainsi, l'IA ne se contente pas de deviner ce que vous voulez, mais opère dans un cadre stable et basé sur les données.

Context engineering : sessions et mémoire

BLOG

Guide du développeur pour les agents IA prêts pour la production

Prompt engineering et context engineering

Le secteur est passé de prompts de base aux pipelines de contexte complexes. Jusqu'à présent, les analystes passaient des heures à modifier quelques phrases dans une zone de conversation pour obtenir un meilleur rapport. Aujourd'hui, nous créons des systèmes qui collectent, filtrent et structurent automatiquement les données avant que l'IA ne les voie. Nous sommes passés des saisies de texte manuelles à une infrastructure automatisée comme Agent Platform et le protocole MCP (Model Context Protocol).

Fonctionnalité	Prompt engineering (ancienne approche)	Context engineering moderne
Objectif	Choix des mots et formulation	Pipelines de données et état de l'environnement
Méthode	Tests et erreurs manuels	Récupération automatisée à l'aide d'Agent Platform
Type d'entrée	Chaînes de texte statiques	Flux BigQuery en direct et données multimodales
Évolutivité	Difficile à reproduire à grande échelle	Intégré à l'architecture Google Cloud

Fonctionnalité

Prompt engineering (ancienne approche)

Context engineering moderne

Objectif

Choix des mots et formulation

Pipelines de données et état de l'environnement

Méthode

Tests et erreurs manuels

Récupération automatisée à l'aide d'Agent Platform

Type d'entrée

Chaînes de texte statiques

Flux BigQuery en direct et données multimodales

Évolutivité

Difficile à reproduire à grande échelle

Intégré à l'architecture Google Cloud

Trois niveaux de contexte

Pour qu'un agent IA reste précis sur de longues périodes, vous devez gérer trois couches d'informations distinctes. Si ces couches ne sont pas organisées, le modèle peut "halluciner" ou inventer des réponses.

Persistant (instructions système)

Ce sont les règles de base qui agissent comme la "physique" du monde de l'IA. Elles définissent le rôle de l'agent, son ton et ce qu'il est strictement autorisé à faire ou non. Dans Vertex AI, ces instructions restent actives tout au long de chaque interaction.

Semi-persistant (mémoire)

Cette couche assure le suivi de l'historique de la conversation et des préférences spécifiques de l'utilisateur. Si un utilisateur a mentionné un format de données privilégié quelques interactions plus tôt, la mémoire semi-persistante permet à l'agent de s'en souvenir. Le workflow progresse ainsi de manière fluide, sans que l'utilisateur ait besoin de se répéter.

Transitoire (données dynamiques)

Il s'agit de la "vérité" injectée en temps réel depuis le monde extérieur. Ce contexte inclut les documents trouvés via Agent Search, les sorties d'API en direct et les notes à court terme que le modèle utilise pour "réfléchir" à un problème. Il est très spécifique à la tâche à accomplir et change à chaque nouvelle requête.

Comprendre l'économie des deux millions jetons

Les jetons sont les unités de base de la mémoire et du coût d'une IA. Vous pouvez les considérer comme la "RAM" d'un grand modèle de langage. Actuellement, des modèles comme Gemini 3.1 ont étendu leurs fenêtres de contexte à 1 à 2 millions de jetons. Cette capacité massive change la façon dont nous concevons les logiciels. Au lieu d'essayer de condenser les informations dans un espace restreint, nous pouvons désormais fournir d'une traite des codebases entiers, des vidéos d'une heure ou des milliers de lignes de données BigQuery.

Mise en cache stratégique du contexte

Jusqu'à présent, les développeurs devaient fortement réduire ou "élaguer" les données pour réaliser des économies, ce qui entraînait souvent une perte d'informations. Désormais, avec la mise en cache du contexte dans Agent Platform, nous pouvons stocker de grandes quantités de données dans la mémoire active du modèle, tout en bénéficiant d'une réduction des coûts de 90 %. Le modèle reste ainsi rapide et économique, tout en s'appuyant sur de vastes quantités d'informations générales réutilisables.

Questions fréquentes

Voici quelques questions fréquentes sur le domaine en pleine expansion du context engineering.

Quelle est la différence entre le prompt engineering et le context engineering ?

Le prompt engineering vise à formuler les meilleures instructions possibles. Le context engineering, quant à lui, consiste à concevoir l'ensemble du système de données et de la mémoire que l'IA utilise pour répondre à ces questions sur Google Cloud.

Quelle est la différence entre le protocole MCP et le context engineering ?

Le context engineering consiste à gérer les informations pour une IA. Le protocole MCP (Model Context Protocol) est un outil spécifique qui permet de connecter facilement et de manière sécurisée l'IA à différentes sources de données, comme BigQuery.

Relevez vos plus grands défis avec Google Cloud

Les nouveaux clients bénéficient de 300 $ de crédits à dépenser sur Google Cloud.

Contactez un spécialiste des ventes Google Cloud pour discuter plus en détail de votre problématique.

Optimiser le contexte sur Google Cloud avec la plate-forme d'agent

Google Cloud fournit l'infrastructure nécessaire pour répondre à ces besoins contextuels massifs. Agent Platform et Gemini 3.1 Flash sont conçus pour les tâches qui nécessitent une faible latence et un contexte étendu. Cette configuration permet aux développeurs de créer des agents capables de "lire" une bibliothèque entière de documents et de répondre à des questions en quelques secondes.

Alerte d'optimisation des coûts

La mise en cache du contexte sur Google Cloud permet de réduire les coûts liés aux jetons jusqu'à 90 %. Pour les applications qui traitent de grandes quantités de données, vous pouvez stocker des éléments tels que l'intégralité de votre schéma BigQuery ou une bibliothèque complète de manuels techniques dans la mémoire active. Ainsi, vous n'avez pas à payer pour "envoyer" ces données au modèle chaque fois qu'un utilisateur pose une nouvelle question.

Passez à l'étape suivante

Profitez de 300 $ de crédits gratuits et de plus de 20 produits Always Free pour commencer à créer des applications sur Google Cloud.

Vous avez besoin d'aide pour démarrer ?
Contacter le service commercial
Faites appel à un partenaire de confiance
Trouver un partenaire
Poursuivez vos recherches
Voir tous les produits