Esta página foi traduzida pela API Cloud Translation.

Como automatizar respostas para falhas de validação da integridade

Aprenda a usar um acionador do Cloud Run Functions para atuar automaticamente nos eventos de monitoramento de integridade da VM protegida.

Informações gerais

O monitoramento de integridade coleta medições de instâncias de VM protegidas e as exibe no Cloud Logging. Se as medições de integridade forem alteradas nas inicializações de uma instância de VM protegida, a validação de integridade falhará. Essa falha é captada como um evento registrado e também é gerada no Cloud Monitoring.

Às vezes, as medições de integridade da VM protegida são alteradas por um motivo legítimo. Por exemplo, uma atualização do sistema pode causar alterações esperadas no kernel do sistema operacional. Por isso, o monitoramento de integridade permite que você solicite que uma instância de VM protegida aprenda um novo valor de referência de política de integridade, no caso de uma falha de validação de integridade esperada.

Neste tutorial, primeiro você criará um sistema automatizado simples que encerra as instâncias de VM protegidas que falharem na validação de integridade:

Exporte todos os eventos de monitoramento de integridade para um tópico do Pub/Sub.
Crie um gatilho do Cloud Run functions que use os eventos nesse tópico para identificar e encerrar instâncias de VM protegidas que falharem na validação de integridade.

Em seguida, como opção, expanda o sistema caso as instâncias de VM protegidas falhem na validação de integridade. Isso fará com que elas aprendam o novo valor de referência, se ele corresponder a uma medição válida. Caso contrário, elas serão encerradas.

Crie um banco de dados do Firestore para manter um conjunto de medições válidas e conhecidas de valores de referência de integridade.
Atualize o gatilho do Cloud Run functions. Isso fará com que as instâncias de VM protegidas que falharem na validação de integridade aprendam o novo valor de referência, se ele estiver no banco de dados. Caso contrário, elas serão encerradas.

Se você optar por implementar a solução expandida, use-a da seguinte maneira:

Sempre que houver uma atualização que possa causar uma falha de validação por um motivo legítimo, execute essa atualização em uma única instância de VM protegida no grupo de instâncias.
Use o evento de inicialização tardia da instância da VM atualizada como uma origem e adicione as novas medições de valores de referência da política ao banco de dados por meio da criação de um novo documento na coleção known_good_measurements. Para mais informações, consulte Como criar um banco de dados de medições válidas de valores de referência.
Atualize as demais instâncias de VM protegidas. O acionador solicita que as demais instâncias aprendam o novo valor de referência porque ele pode ser verificado como válido. Consulte Como atualizar o acionador do Cloud Run functions para aprender um valor de referência válido para mais informações.

Pré-requisitos

Usar um projeto que tenha o Firestore no modo Native selecionado como o serviço de banco de dados. Essa seleção é feita quando você cria o projeto, e não pode ser alterada. Se o projeto não usa o Firestore no modo Native, você verá a mensagem “Este projeto usa outro serviço de banco de dados” ao abrir o console do Firestore.
Ter uma instância da VM protegida do Compute Engine nesse projeto para ser a origem das medições de valores de referência de integridade. É preciso que a instância da VM protegida tenha sido reiniciada pelo menos uma vez.
Ter a ferramenta de linha de comando gcloud instalada.
Ativar as APIs do Cloud Logging e do Cloud Run functions seguindo estes passos:
1. No Google Cloud console, acesse a página APIs e serviços.
  
  Acessar APIs e serviços
2. Veja se a API do Cloud Functions e a API do Stackdriver Logging aparecem na lista APIs e serviços ativados.
3. Se alguma das APIs não aparecer, clique em Adicionar APIs e serviços.
4. Pesquise e ative as APIs, conforme necessário.

Como exportar entradas de registro de monitoramento de integridade para um tópico do Pub/Sub

Use o Logging para exportar todas as entradas de registro de monitoramento de integridade geradas por instâncias de VM protegidas para um tópico do Pub/Sub. Use esse tópico como uma fonte de dados para um gatilho do Cloud Run functions para automatizar respostas a eventos de monitoramento de integridade.

Explorador de registros

No Google Cloud console, acesse a página Explorador de registros.

Acessar o Cloud Logging

No Criador de consultas, digite os seguintes valores:

resource.type="gce_instance"
AND logName:  "projects/YOUR_PROJECT_ID/logs/compute.googleapis.com/shielded_vm_integrity"

Clique em Executar filtro.
Clique em Mais ações e, em seguida, selecione Criar coletor.
Na página Criar coletor de roteamento de registros:
1. Em Detalhes do coletor, em Nome do coletor, digite integrity-monitoring e clique em Avançar.
2. Em Destino do coletor, expanda Serviço de coletor e selecione Cloud Pub/Sub.
3. Expanda Selecionar um tópico do Cloud Pub/Sub e, depois, Criar um tópico.
4. Na caixa de diálogo Criar um tópico, em ID do tópico, digite integrity-monitoring e clique em Criar tópico.
5. Clique em Avançar e, em seguida, clique em Criar coletor.

Explorador de registros

No Google Cloud console, acesse a página Explorador de registros.

Acessar o Cloud Logging
Clique em Opções e selecione Voltar para o Explorador de registros legado.
Expanda Filtrar por identificador ou pesquisa de texto e clique em Converter para filtro avançado.

Digite o seguinte filtro avançado:

resource.type="gce_instance"
AND logName:  "projects/YOUR_PROJECT_ID/logs/compute.googleapis.com/shielded_vm_integrity"

Observe que há dois espaços após logName:.

Clique em Enviar filtro.
Clique em Criar exportação.
Em Nome do coletor, insira integrity-monitoring.
Para Serviço de coletor, selecione Cloud Pub/Sub.
Expanda Destino do coletor e clique em Criar novo tópico do Cloud Pub/Sub.
Em Nome, digite integrity-monitoring e clique em Criar.
Clique em Criar coletor.

Criar um acionador do Cloud Run functions para responder a falhas de integridade

Crie um gatilho do Cloud Run functions que leia os dados no tópico do Pub/Sub e interrompa qualquer instância de VM protegida com falha na validação de integridade.

O código a seguir define o gatilho do Cloud Run functions. Copie-o para um arquivo chamado main.py.

import base64
import json
import googleapiclient.discovery

def shutdown_vm(data, context):
    """A Cloud Function that shuts down a VM on failed integrity check."""
    log_entry = json.loads(base64.b64decode(data['data']).decode('utf-8'))
    payload = log_entry.get('jsonPayload', {})
    entry_type = payload.get('@type')
    if entry_type != 'type.googleapis.com/cloud_integrity.IntegrityEvent':
      raise TypeError("Unexpected log entry type: %s" % entry_type)

    report_event = (payload.get('earlyBootReportEvent')
        or payload.get('lateBootReportEvent'))

    if report_event is None:
      # We received a different event type, ignore.
      return

    policy_passed = report_event['policyEvaluationPassed']
    if not policy_passed:
      print('Integrity evaluation failed: %s' % report_event)
      print('Shutting down the VM')

      instance_id = log_entry['resource']['labels']['instance_id']
      project_id = log_entry['resource']['labels']['project_id']
      zone = log_entry['resource']['labels']['zone']

      # Shut down the instance.
      compute = googleapiclient.discovery.build(
          'compute', 'v1', cache_discovery=False)

      # Get the instance name from instance id.
      list_result = compute.instances().list(
          project=project_id,
          zone=zone,
              filter='id eq %s' % instance_id).execute()
      if len(list_result['items']) != 1:
        raise KeyError('unexpected number of items: %d'
            % len(list_result['items']))
      instance_name = list_result['items'][0]['name']

      result = compute.instances().stop(project=project_id,
          zone=zone,
          instance=instance_name).execute()
      print('Instance %s in project %s has been scheduled for shut down.'
          % (instance_name, project_id))

No mesmo local que main.py, crie um arquivo chamado requirements.txt e copie as seguintes dependências:
```
google-api-python-client==1.6.6
google-auth==1.4.1
google-auth-httplib2==0.0.3
```
Abra uma janela de terminal e navegue até o diretório que contém main.py e requirements.txt.

Execute o comando gcloud beta functions deploy para implantar o gatilho:

gcloud beta functions deploy shutdown_vm \
    --project PROJECT_ID \
    --runtime python37 \
    --trigger-resource integrity-monitoring \
    --trigger-event google.pubsub.topic.publish

Criar um banco de dados de medições válidas de valores de referência

Crie um banco de dados do Firestore para fornecer uma fonte de medições de valores de referência de políticas de integridade válidos. É preciso adicionar manualmente as medições de valores de referência para manter esse banco de dados atualizado.

No Google Cloud console, acesse a página Instâncias de VM.

Acessar a página "Instâncias de VM"
Clique no código da instância da VM protegida para abrir a página Detalhes da instância de VM.
Em Registros, clique em Stackdriver Logging.
Encontre a entrada de registro lateBootReportEvent mais recente.
Expanda a entrada de registro > jsonPayload > lateBootReportEvent > policyMeasurements.
Observe os valores dos elementos contidos em lateBootReportEvent > policyMeasurements.
No console do Google Cloud , acesse a página Firestore.

Acesse o console do Firestore.
Selecione Iniciar coleção.
Para Código da coleção, digite known_good_measurements.
Para o ID do documento, digite baseline1.
Para o Nome do campo, digite o valor do campo pcrNum do elemento 0 em lateBootReportEvent > policyMeasurements.
Para o Tipo de campo, selecione o mapa.
Adicione três campos de string ao campo do mapa, denominados hashAlgo, pcrNum e value, respectivamente. Transforme os valores desses campos nos valores dos campos 0 do elemento em lateBootReportEvent > policyMeasurements.
Crie mais campos de mapa, um para cada novo elemento em lateBootReportEvent > policyMeasurements. Dê a eles os mesmos subcampos que o primeiro campo do mapa. Os valores para esses subcampos devem ser associados aos de cada um dos outros elementos.

Por exemplo, se você estiver usando uma VM do Linux, a coleção será parecida com a seguinte quando você terminar:

Se você estiver usando uma VM do Windows, verá mais medidas. Assim, a coleção será semelhante a esta:

Como atualizar o gatilho do Cloud Run functions para aprender um valor de referência válido

O código a seguir cria um gatilho do Cloud Run functions que faz qualquer instância de VM protegida que falhar na validação de integridade aprender o novo valor de referência, se ele estiver no banco de dados de medições válidas. Caso contrário, ela será encerrada. Copie esse código e use-o para substituir o código atual em main.py.

import base64
import json
import googleapiclient.discovery

import firebase_admin
from firebase_admin import credentials
from firebase_admin import firestore

PROJECT_ID = 'PROJECT_ID'

firebase_admin.initialize_app(credentials.ApplicationDefault(), {
    'projectId': PROJECT_ID,
})

def pcr_values_to_dict(pcr_values):
  """Converts a list of PCR values to a dict, keyed by PCR num"""
  result = {}
  for value in pcr_values:
    result[value['pcrNum']] = value
  return result

def instance_id_to_instance_name(compute, zone, project_id, instance_id):
  list_result = compute.instances().list(
      project=project_id,
      zone=zone,
      filter='id eq %s' % instance_id).execute()
  if len(list_result['items']) != 1:
    raise KeyError('unexpected number of items: %d'
        % len(list_result['items']))
  return list_result['items'][0]['name']

def relearn_if_known_good(data, context):
    """A Cloud Function that shuts down a VM on failed integrity check.
    """
    log_entry = json.loads(base64.b64decode(data['data']).decode('utf-8'))
    payload = log_entry.get('jsonPayload', {})
    entry_type = payload.get('@type')
    if entry_type != 'type.googleapis.com/cloud_integrity.IntegrityEvent':
      raise TypeError("Unexpected log entry type: %s" % entry_type)

    # We only send relearn signal upon receiving late boot report event: if
    # early boot measurements are in a known good database, but late boot
    # measurements aren't, and we send relearn signal upon receiving early boot
    # report event, the VM will also relearn late boot policy baseline, which we
    # don't want, because they aren't known good.
    report_event = payload.get('lateBootReportEvent')
    if report_event is None:
      return

    evaluation_passed = report_event['policyEvaluationPassed']
    if evaluation_passed:
      # Policy evaluation passed, nothing to do.
      return

    # See if the new measurement is known good, and if it is, relearn.
    measurements = pcr_values_to_dict(report_event['actualMeasurements'])

    db = firestore.Client()
    kg_ref = db.collection('known_good_measurements')

    # Check current measurements against known good database.
    relearn = False
    for kg in kg_ref.get():

      kg_map = kg.to_dict()

      # Check PCR values for lateBootReportEvent measurements against the known good
      # measurements stored in the Firestore table

      if ('PCR_0' in kg_map and kg_map['PCR_0'] == measurements['PCR_0'] and
          'PCR_4' in kg_map and kg_map['PCR_4'] == measurements['PCR_4'] and
          'PCR_7' in kg_map and kg_map['PCR_7'] == measurements['PCR_7']):

        # Linux VM (3 measurements), only need to check above 3 measurements
        if len(kg_map) == 3:
          relearn = True

        # Windows VM (6 measurements), need to check 3 additional measurements
        elif len(kg_map) == 6:
          if ('PCR_11' in kg_map and kg_map['PCR_11'] == measurements['PCR_11'] and
              'PCR_13' in kg_map and kg_map['PCR_13'] == measurements['PCR_13'] and
              'PCR_14' in kg_map and kg_map['PCR_14'] == measurements['PCR_14']):
            relearn = True

    compute = googleapiclient.discovery.build('compute', 'beta',
        cache_discovery=False)

    instance_id = log_entry['resource']['labels']['instance_id']
    project_id = log_entry['resource']['labels']['project_id']
    zone = log_entry['resource']['labels']['zone']

    instance_name = instance_id_to_instance_name(compute, zone, project_id, instance_id)

    if not relearn:
      # Issue shutdown API call.
      print('New measurement is not known good. Shutting down a VM.')

      result = compute.instances().stop(project=project_id,
          zone=zone,
          instance=instance_name).execute()

      print('Instance %s in project %s has been scheduled for shut down.'
            % (instance_name, project_id))

    else:
      # Issue relearn API call.
      print('New measurement is known good. Relearning...')

      result = compute.instances().setShieldedInstanceIntegrityPolicy(
          project=project_id,
          zone=zone,
          instance=instance_name,
          body={'updateAutoLearnPolicy':True}).execute()

      print('Instance %s in project %s has been scheduled for relearning.'
        % (instance_name, project_id))

Copie as seguintes dependências e use-as para substituir o código atual em requirements.txt:

google-api-python-client==1.6.6
google-auth==1.4.1
google-auth-httplib2==0.0.3
google-cloud-firestore==0.29.0
firebase-admin==2.13.0

Abra uma janela de terminal e navegue até o diretório que contém main.py e requirements.txt.

Execute o comando gcloud beta functions deploy para implantar o gatilho:

gcloud beta functions deploy relearn_if_known_good \
    --project PROJECT_ID \
    --runtime python37 \
    --trigger-resource integrity-monitoring \
    --trigger-event google.pubsub.topic.publish

Exclua manualmente a função shutdown_vm anterior no console da função do Cloud.
No console Google Cloud , acesse a página Cloud Functions.

Acesse o Cloud Functions
Selecione a função shutdown_vm e clique em excluir.

Verificar as respostas automáticas em relação às falhas na validação da integridade

Primeiro, verifique se você tem uma instância em execução com Inicialização segura ativada como uma opção de VM protegida. Caso contrário, crie uma nova instância com imagem de VM protegida (Ubuntu 18.04LTS) e ative a opção Inicialização segura. Alguns centavos podem ser cobrados pela instância (é possível concluir esta etapa em uma hora).
Agora, suponha que, por algum motivo, você queira atualizar o kernel manualmente.
Conecte o SSH à instância e use o seguinte comando para verificar o kernel atual.
```
uname -sr
```
Você verá algo como Linux 4.15.0-1028-gcp.
Faça o download de um kernel genérico em https://kernel.ubuntu.com/~kernel-ppa/mainline/
Use o comando para instalar.
```
sudo dpkg -i *.deb
```
Reinicialize a VM.
Você verá que a VM não está inicializando já que o SSH não consegue se conectar à máquina. Isso é o que esperamos porque a assinatura do novo kernel não está na lista de permissões da Inicialização Segura. Isso também demonstra como a Inicialização segura pode impedir uma modificação mal-intencionada ou desautorizada do kernel.
Mas como sabemos que, desta vez, o upgrade do kernel não é malicioso e é feito por nós mesmos, podemos desativar a Inicialização segura para inicializar o novo kernel.
Encerre a VM, desmarque a opção Inicialização Segura e, em seguida, reinicie a VM.
A inicialização da máquina falhará novamente. Mas, dessa vez, ela está sendo encerrada automaticamente porque a função do Cloud criada como opção de Inicialização segura foi mudada (também por causa da nova imagem do kernel), e isso fez com que a medição fosse diferente do valor de referência. Podemos verificar isso no registro do Stackdriver da função do Cloud.
Como sabemos que isso não é uma modificação mal-intencionada e conhecemos a causa, podemos adicionar a medida atual em lateBootReportEvent à tabela de medições válidas do Firebase. Lembre-se de que há duas coisas sendo alteradas: 1. A opção de Inicialização segura 2. A imagem do kernel.

Siga a etapa anterior Como criar um banco de dados de medições válidas de valores de referência para anexar um novo valor de referência ao banco de dados do Firestore usando a medida real no lateBootReportEvent mais recente.
Agora, reinicialize a máquina. Ao verificar o registro do Stackdriver, você verá que lateBootReportEvent ainda está sendo exibido como "false", mas a máquina iniciará com êxito, porque a função do Cloud confiou na nova medição e a reaprendeu. Isso pode ser verificado no Stackdriver da função do Cloud.
Com a Inicialização segura desativada, agora podemos inicializar no kernel. Conecte o SSH à máquina e verifique o kernel novamente. Você verá a nova versão dele.
```
uname -sr
```
Por fim, vamos limpar os recursos e os dados usados nessa etapa.
Se você criou uma VM para essa etapa, encerre-a para evitar mais cobranças.
No Google Cloud console, acesse a página Instâncias de VM.

Acessar a página "Instâncias de VM"
Remova as medições válidas adicionadas nessa etapa.
No console do Google Cloud , acesse a página Firestore.

Acessar a página do Firestore