Modèle de ressource

Le schéma suivant illustre le modèle de ressource d'inférence Knative:

Révisions et services de diffusion Knative

Le schéma montre un projet Google Cloud contenant deux services de diffusion Knative, Service A et Service B, chacun ayant plusieurs révisions.

Nous voyons que le Service A reçoit de nombreuses requêtes, ce qui entraîne le démarrage et l'exécution de plusieurs instances de conteneur. Notez que le Service B ne reçoit pas de requêtes pour l'instant, donc aucune instance de conteneur n'est encore démarrée.

Services de diffusion Knative

Le service est la ressource principale de Knative serving. Chaque service est situé dans un espace de noms de cluster GKE spécifique.

Un projet Google Cloud donné peut exécuter de nombreux services dans différentes régions ou différents clusters GKE.

Chaque service expose un point de terminaison unique et adapte automatiquement l'infrastructure sous-jacente pour gérer les requêtes entrantes.

Révisions de diffusion avec Knative

Chaque déploiement sur un service crée une révision. Une révision comprend une image de conteneur spécifique, ainsi que des paramètres d'environnement tels que des variables d'environnement, des limites de mémoire ou une valeur de simultanéité.

Les révisions sont immuables : une fois une révision créée, elle ne peut plus être modifiée. Par exemple, lorsque vous déployez une image de conteneur sur un nouveau service de diffusion Knative, la première révision est créée. Si vous déployez ensuite une image de conteneur différente sur ce même service, une deuxième révision est créée. Si vous définissez ensuite une variable d'environnement, une troisième révision est créée, et ainsi de suite.

Les requêtes sont automatiquement acheminées dès que possible vers la dernière révision de service opérationnelle. Vous pouvez répartir le trafic entre différentes révisions selon vos besoins.

Instances de conteneur de diffusion Knative

Chaque révision recevant des requêtes est automatiquement amenée au nombre d'instances de conteneur nécessaires pour les traiter en totalité. Notez qu'une instance de conteneur peut recevoir plusieurs requêtes en même temps. Le paramètre de simultanéité vous permet de définir le nombre maximal de requêtes pouvant être envoyées en parallèle à une instance de conteneur donnée.