Modelo de recurso

O diagrama a seguir mostra o modelo de recursos de exibição do Knative:

Serviços e revisões de veiculação do Knative

O diagrama mostra um projeto do Google Cloud contendo dois serviços de exibição Knative, Service A e Service B, cada um com várias revisões.

No diagrama, Service A está recebendo muitas solicitações, o que resulta na inicialização e execução de várias instâncias de contêiner. No momento, Service B não está recebendo solicitações. Portanto, nenhuma instância de contêiner foi iniciada ainda.

Serviços de veiculação do Knative

O serviço é o principal recurso do Knative serving. Cada serviço está localizado em um namespace de cluster específico do GKE.

Um determinado projeto do Google Cloud pode executar muitos serviços em diferentes regiões ou clusters do GKE.

Cada serviço expõe um endpoint exclusivo e escalona automaticamente a infraestrutura subjacente para manipular solicitações de entrada.

Revisões de veiculação do Knative

Cada implantação em um serviço cria uma revisão. que consiste em uma imagem de contêiner específica, com configurações de ambiente, como variáveis de ambiente, limites de memória ou valor de simultaneidade.

As revisões são imutáveis: depois que uma revisão é criada, ela não pode ser modificada. Por exemplo, quando você implanta uma imagem de contêiner em um novo serviço de exibição Knative, a primeira revisão é criada. Se em seguida você implantar uma imagem de contêiner diferente no mesmo serviço, uma segunda revisão será criada. Se, depois, você definir uma variável de ambiente, uma terceira revisão será criada e assim por diante.

As solicitações são roteadas automaticamente o quanto antes para a última revisão de serviço íntegra. É possível dividir o tráfego entre diferentes revisões conforme necessário.

Instâncias de contêiner do Knative Serving

Cada solicitação de recebimento de revisão é escalonada automaticamente para o número de instâncias de contêiner necessárias para lidar com todas essas solicitações. Observe que uma instância de contêiner pode receber muitas solicitações ao mesmo tempo. Com a configuração de simultaneidade, é possível definir o número máximo de solicitações que podem ser enviadas em paralelo a uma determinada instância de contêiner.