Como fazer escalonamento com base na capacidade de serviço do balanceamento de carga

Neste documento, mostramos como fazer o escalonamento de um grupo de instâncias gerenciadas (MIG, na sigla em inglês) com base na capacidade de serviço de um balanceador de carga HTTP(S) externo. Isso significa que o escalonamento automático adiciona ou remove instâncias de VM no grupo quando o balanceador de carga indica que o grupo atingiu uma fração configurável da capacidade total, sendo essa capacidade total definida pela capacidade de destino do modo de balanceamento selecionado do grupo de instâncias de back-end.

Também é possível fazer o escalonamento de um MIG com base na utilização da CPU ou nas métricas do Monitoring.

Antes de começar

Escalonamento com base na capacidade de exibição do balanceamento de carga HTTP(S)

No Compute Engine, você tem o suporte para o balanceamento de carga dentro dos grupos de instâncias. Para usar o escalonamento automático com o balanceamento de carga, defina um escalonador automático que faz esse escalonamento com base na carga das instâncias.

Um balanceador de carga HTTP(S) externo distribui solicitações para serviços de back-end de acordo com o mapa de URL. O balanceador de carga pode ter um ou mais serviços de back-end, cada um deles oferecendo suporte aos back-ends de grupos de endpoints de rede (NEG, na sigla em inglês) ou grupos de instâncias. Quando os back-ends são grupos de instâncias, o balanceador de carga HTTP(S) externo oferece dois modos de balanceamento: UTILIZATION e RATE. Use UTILIZATION para especificar uma meta máxima para a utilização média de back-end de instâncias no grupo de instâncias. Use RATE para especificar um número de destino de solicitações por segundo por instância ou por grupo. Observação: somente os grupos de instâncias zonais aceitam a especificação de uma taxa máxima para todo o grupo. Não é possível definir uma taxa máxima por grupo para grupos de instâncias gerenciadas regionais.

A capacidade de destino e o modo de balanceamento especificados definem as condições em que o Google Cloud determina quando uma VM de back-end atingiu a capacidade total. O Google Cloud tenta enviar tráfego para VMs íntegras que ainda têm capacidade sobrando. Se todas as VMs tiverem atingido a capacidade máxima, a meta máxima de utilização ou taxa terá sido excedida.

Ao anexar um escalonador automático a um back-end de grupo de instâncias de um balanceador de carga HTTP(S) externo, esse escalonador automático fará o escalonamento do grupo de instâncias gerenciadas para manter uma fração da capacidade de serviço de balanceamento de carga.

Por exemplo, imagine que a capacidade de serviço de balanceamento de carga de um grupo de instâncias gerenciadas seja definida como 100 RPS por instância. Se você criar um escalonador automático com a política de balanceamento de carga HTTP(S) e configurá-lo para manter um nível de utilização de 0,8 ou 80%, o escalonador automático adicionará ou removerá instâncias do grupo de instâncias gerenciadas para manter 80% da capacidade de serviço ou 80 RPS por instância.

O diagrama a seguir mostra como o escalonador automático interage com um grupo de instâncias gerenciadas e um serviço de back-end:

As relações entre o escalonador automático, os grupos de instâncias gerenciadas e os serviços de back-end de balanceamento de carga.
A capacidade de serviço do grupo de instâncias gerenciadas, definida no serviço de back-end, é monitorada no escalonador automático, e o escalonamento é feito com base na meta de utilização. Neste exemplo, a capacidade de serviço é medida com o valor maxRatePerInstance.

Configurações de balanceamento de carga aplicáveis

É possível definir uma das três opções de capacidade de serviço de balanceamento de carga. Ao criar o back-end pela primeira vez, é possível escolher entre a utilização máxima do back-end, as solicitações máximas por segundo por instância ou as solicitações máximas por segundo de todo o grupo. O escalonamento automático funciona apenas com utilização máxima do back-end e solicitações máximas por segundo/instância. O motivo disso é que o valor dessas configurações pode ser controlado ao adicionar ou remover instâncias. Por exemplo, se você configurar um back-end para processar 10 solicitações por segundo por instância e o escalonador automático estiver configurado para manter 80% dessa taxa, o escalonador poderá adicionar ou remover instâncias quando a quantidade de solicitações por segundo por instância for alterada.

O escalonamento automático não funciona com a quantidade máxima de solicitações por grupo porque essa configuração independe do número de instâncias no grupo de instâncias. No balanceador de carga, a quantidade máxima de solicitações por grupo é enviada continuamente para o grupo de instâncias, independentemente de quantas instâncias existem nesse grupo.

Por exemplo, se você definir o back-end para processar no máximo 100 solicitações por grupo por segundo, o balanceador de carga enviará 100 solicitações por segundo para o grupo, independentemente de o grupo ter duas ou 100 instâncias. Como esse valor não pode ser ajustado, o escalonamento automático não funciona com configurações de balanceamento de carga que usam o número máximo de solicitações por segundo por grupo.

Ativar o escalonamento automático baseado na capacidade de serviço de balanceamento de carga

Console


  1. Acesse a página Grupos de instâncias no Console do Google Cloud.

    Acessar a página Grupos de instâncias

  2. Se você tem um grupo de instâncias, selecione-o e clique em Editar grupo. Se você não tem um grupo de instâncias, clique em Criar grupo de instâncias.
  3. Em Escalonamento automático, selecione Ativado.
  4. Em Escalonamento automático baseado em, selecione Utilização de balanceamento de carga HTTP.
  5. Insira a Meta de utilização de balanceamento de carga. Esse valor é tratado como uma porcentagem. Por exemplo, para 60% de utilização do balanceamento de carga HTTP, insira 60.
  6. Insira o número máximo de instâncias que você quer para esse grupo. Defina também o número mínimo de instâncias e o período de espera. O período de espera é o número de segundos que o escalonador automático precisa aguardar depois que a máquina virtual é iniciada para começar a coletar informações dela. Isso determina o tempo que a instância pode levar para ser inicializada; os dados coletados nesse tempo não são confiáveis para o escalonamento automático. O período de espera padrão é de 60 segundos.
  7. Salve as alterações.

gcloud


Para ativar um escalonador automático responsável pelo escalonamento com base na capacidade de serviço, use o subcomando set-autoscaling. Por exemplo, o comando a seguir cria um escalonador automático que dimensiona o grupo de instâncias gerenciadas de destino para que 60% da capacidade de serviço seja mantida. Com o parâmetro --target-load-balancing-utilization, também é necessário o parâmetro --max-num-replicas para criar um escalonador automático:

gcloud compute instance-groups managed set-autoscaling example-managed-instance-group \
    --max-num-replicas 20 \
    --target-load-balancing-utilization 0.6 \
    --cool-down-period 90

Opcionalmente, é possível usar a sinalização --cool-down-period, que informa ao autoescalador quantos segundos esperar após uma nova instância ser iniciada antes de considerar os dados da nova instância. Esse período de espera determina o tempo que a instância pode levar para ser inicializada; os dados coletados nesse tempo não são confiáveis para o escalonamento automático. Depois que o período de espera é aprovado, o escalonador automático começa a incluir os dados de utilização da instância para determinar se o grupo precisa ser dimensionado. O período de espera padrão é de 60 segundos.

É possível verificar se o escalonador automático foi criado usando o subcomando describe:

gcloud compute instance-groups managed describe example-managed-instance-group

Para uma lista de sinalizações e comandos gcloud disponíveis, consulte a referência de gcloud.

API


Observação: embora o escalonamento automático seja um recurso de grupos de instâncias gerenciadas, ele é um recurso de API separado. Lembre-se disso quando você criar solicitações de API para o escalonamento automático.

Na API, faça uma solicitação POST ao método autoscalers.insert:

POST https://compute.googleapis.com/compute/v1/projects/[PROJECT_ID]/zones/[ZONE]/autoscalers/

O corpo da solicitação precisa conter os campos name, target e autoscalingPolicy. autoscalingPolicy precisa definir loadBalancingUtilization.

Opcionalmente, é possível usar o campo coolDownPeriodSec, que informa ao escalonador automático quantos segundos esperar após uma nova instância ser iniciada antes de considerar os dados da nova instância. Esse período de espera determina o tempo que a instância pode levar para ser inicializada; os dados coletados nesse tempo não são confiáveis para o escalonamento automático. Depois que o período de espera é aprovado, o escalonador automático começa a incluir os dados de utilização da instância para determinar se o grupo precisa ser dimensionado. O período de espera padrão é de 60 segundos.

{

 "name": "example-autoscaler",
 "target": "zones/us-central1-f/instanceGroupManagers/example-managed-instance-group",
 "autoscalingPolicy": {
    "maxNumReplicas": 20,
    "loadBalancingUtilization": {
       "utilizationTarget": 0.8
     },
    "coolDownPeriodSec": 90
  }
}

Para mais informações sobre como ativar o escalonamento automático com base na capacidade de serviço do balanceamento de carga, conclua o tutorial Como fazer o escalonamento automático global de um serviço da Web no Compute Engine.

Escalonamento para outros tipos de balanceadores de carga

Para fazer o escalonamento automático de um grupo de instâncias gerenciadas usado como back-end para outros tipos de balanceadores de carga do Google Cloud, use uma política de escalonador automático diferente.