Jobs híbridos e acionadores de jobs

Jobs híbridos e acionadores de jobs envolvem um conjunto de métodos assíncronos de API que permitem verificar payloads de dados enviados de praticamente qualquer fonte em busca de informações confidenciais e armazenar as descobertas no Google Cloud. Com os jobs híbridos, é possível criar seus próprios rastreadores de dados que se comportam e veiculam dados de maneira semelhante aos métodos de inspeção de armazenamento do Cloud Data Loss Prevention.

Com jobs híbridos, é possível fazer streaming dados de qualquer origem para o Cloud DLP. O Cloud DLP inspeciona os dados em busca de informações confidenciais ou informações de identificação pessoal (PII, na sigla em inglês) e, em seguida, salva os resultados da verificação de inspeção em um recurso de job do Cloud DLP. É possível examinar os resultados da verificação na IU ou na API do Console do Cloud DLP ou especificar ações de pós-verificação a serem executadas, como salvar dados de resultados da inspeção em uma tabela do BigQuery ou emitir uma notificação do Pub/Sub.

O fluxo de trabalho de jobs híbridos está resumido no diagrama a seguir:

Diagrama de fluxo de dados de jobs híbridos, mostrando o aplicativo enviando dados de
uma fonte externa para o Cloud DLP, o Cloud DLP inspecionando
os dados e salvando ou publicando descobertas.

Neste tópico conceitual, descrevemos jobs híbridos, acionadores de job e como eles funcionam. Para saber como implementar jobs híbridos e gatilhos de jobs, consulte Como inspecionar dados externos usando jobs híbridos.

Sobre ambientes híbridos

Ambientes "híbridos" são comuns nas organizações. Muitas organizações armazenam e processam dados confidenciais usando alguma combinação dos seguintes itens:

  • Outros provedores de nuvem
  • Servidores locais ou outros repositórios de dados
  • sistemas de armazenamento não nativos, como sistemas executados em uma máquina virtual
  • Apps da Web e para dispositivos móveis
  • Soluções baseadas no Google Cloud

Usando jobs híbridos, o Cloud DLP pode inspecionar os dados enviados para ele de qualquer uma dessas origens. Veja alguns exemplos de cenários:

  • Inspecione dados armazenados no Amazon Relational Database Service (RDS), MySQL em execução em uma máquina virtual ou em um banco de dados local.
  • Inspecione e tokenize dados à medida que você migra do local para a nuvem ou entre produção, desenvolvimento e análise.
  • inspecionar e editar transações de um aplicativo da Web ou para dispositivos móveis antes de armazenar os dados em repouso.

Opções de inspeção

Conforme descrito com mais detalhes em Tipos de método, quando você quiser inspecionar o conteúdo em busca de dados confidenciais, o Cloud DLP oferece três opções padrão:

  • Inspeção de métodos de conteúdo: usando a inspeção de conteúdo, você faz streaming de pequenos payloads de dados para o Cloud DLP, junto de instruções sobre o que inspecionar. Em seguida, o Cloud DLP inspeciona os dados em busca de conteúdo confidencial e PII e, em seguida, retorna os resultados da verificação para você.
  • Inspeção de métodos de armazenamento: usando a inspeção de armazenamento, o Cloud DLP inspeciona um repositório de armazenamento com base no Google Cloud, como um banco de dados do BigQuery, um bucket do Cloud Storage ou um tipo do Datastore. Você informa ao Cloud DLP o que inspecionar e o que buscar, e o Cloud DLP executa um job que verifica o repositório. Após a conclusão da verificação, o Cloud DLP salva um resumo dos resultados da verificação no job. Além disso, é possível especificar que os resultados sejam enviados para outro produto do Google Cloud para análise, como uma tabela separada do BigQuery.
  • Inspeção de jobs híbridos: os jobs híbridos oferecem os benefícios dos dois métodos anteriores. Eles permitem que você faça streaming de dados como faria com os métodos de conteúdo, além de conseguir o armazenamento, a visualização e as ações de jobs de inspeção de armazenamento. Toda a configuração de inspeção é gerenciada no Cloud DLP, sem necessidade de configuração adicional no lado do cliente. Os jobs híbridos podem ser úteis para verificar sistemas de armazenamento não nativos, como um banco de dados executado em uma máquina virtual (VM, na sigla em inglês), no local ou em outra nuvem. Métodos híbridos também podem ser úteis para inspecionar sistemas de processamento, como cargas de trabalho de migração, ou até para a comunicação entre serviços de proxy. Embora os métodos de conteúdo também possam fazer isso, os métodos híbridos oferecem o back-end de armazenamento de descobertas que pode agregar os dados em várias chamadas de API para que você não precise fazer isso.

Sobre jobs híbridos e acionadores de jobs

Um job híbrido é, efetivamente, um híbrido de métodos de conteúdo e métodos de armazenamento. O fluxo de trabalho básico para usar jobs híbridos e acionadores de jobs é o seguinte:

  1. Você escreve um script ou cria um fluxo de trabalho que envia dados ao Cloud DLP para inspeção, além de alguns metadados.
  2. É preciso configurar e criar um gatilho ou um recurso de job híbrido que será ativado quando ele receber dados.
  3. Seu script ou fluxo de trabalho é executado no lado do cliente e envia dados para o Cloud DLP na forma de uma solicitação hybridInspect. Os dados incluem uma mensagem de ativação e o identificador do job ou do gatilho de jobs, que aciona a inspeção.
  4. O Cloud DLP inspeciona os dados de acordo com os critérios definidos no job ou gatilho híbrido.
  5. O Cloud DLP salva os resultados da verificação no recurso do job híbrido, junto com os metadados que você fornece. É possível examinar os resultados usando a IU do Cloud DLP no console.
  6. Opcionalmente, o Cloud DLP pode executar ações pós-verificação, como salvar dados de resultados de inspeção em uma tabela do BigQuery ou notificar você por e-mail ou Pub/Sub.

Um acionador de job híbrido permite criar, ativar e interromper jobs para que você possa acionar ações sempre que precisar. Ao garantir que o script ou o código envie dados que incluam o identificador do gatilho de jobs híbridos, não é necessário atualizar o script ou o código sempre que um novo job for iniciado.

Cenários típicos de jobs híbridos

Os jobs híbridos são adequados para objetivos como os seguintes:

  • Execute uma verificação única de um banco de dados fora do Google Cloud como parte de uma verificação trimestral de bancos de dados.
  • Monitorar diariamente o novo conteúdo adicionado a um banco de dados não compatível com o Cloud DLP.
  • Verificar dados que entram em um banco de dados e controlar como eles são particionados.
  • Monitore o tráfego em uma rede usando o filtro do Cloud DLP para Envoy (um filtro HTTP do WebAssembly para proxies sidecar do Envoy) para identificar o movimento de dados confidenciais problemáticos.

Para informações sobre como lidar com esses cenários, consulte Cenários típicos de inspeção híbrida.

Tipos de metadados que é possível fornecer

Nesta seção, descrevemos os tipos de metadados que podem ser anexados aos dados externos que você quer inspecionar ou às descobertas.

É possível definir metadados nos seguintes níveis:

Metadados em um job híbrido ou gatilho de job híbrido

Nesta seção, descrevemos os tipos de metadados que podem ser anexados a um job ou gatilho de job híbrido.

Rótulos obrigatórios

No gatilho de job híbrido ou híbrido, é possível especificar uma lista de rótulos obrigatórios que precisam ser incluídos em todas as solicitações de inspeção híbrida enviadas. Todas as solicitações referentes ao job híbrido ou ao gatilho de job híbrido que não incluírem esses rótulos necessários serão rejeitadas. Para mais informações, consulte Exigir rótulos de solicitações hybridInspect.

Rótulos opcionais

É possível especificar pares de chave-valor que serão anexados a todas as descobertas de um job híbrido ou um gatilho de job híbrido. Por exemplo, se você quiser que todas as descobertas de um job híbrido tenham o rótulo "env"="prod", especifique esse par de chave-valor ao criar o job híbrido.

Opções de dados tabulares

É possível especificar qualquer coluna que seja um identificador de linha (chaves primárias) para objetos de tabela nos seus dados. Se houver colunas especificadas na tabela, os valores delas serão incluídos com cada descoberta para que você possa rastrear a descoberta até a linha de origem. Essas opções tabulares se aplicam somente a solicitações que enviam dados tabulares, como um formato item.table ou byteItem, como CSV.

Se você souber as chaves primárias com antecedência, poderá defini-las como campos de identificação ao criar o gatilho híbrido ou o job híbrido. É possível listar até três nomes de coluna no campo hybridOptions.tableOptions.identifyingFields.

Metadados em uma solicitação hybridInspect

Nesta seção, descrevemos os tipos de metadados que podem ser anexados a uma solicitação hybridInspect. Os metadados enviados em uma solicitação hybridInspect são aplicados somente a essa solicitação.

Detalhes do contêiner

Cada solicitação enviada a um job híbrido ou um gatilho de job híbrido pode especificar detalhes sobre a fonte de dados, incluindo elementos como fullPath, rootPath, relativePath, type, version, entre outros. Por exemplo, se você estiver verificando tabelas em um banco de dados, defina os campos da seguinte maneira:

{
  "hybridItem": {
    "item": {...},
    "findingDetails": {
      "containerDetails": {
        "fullPath": "10.0.0.20/database1/table1",
        "relativePath": "table1",
        "rootPath": "10.0.0.20/database1",
        "type": "postgres",
        "version": "9.6"
      },
      "labels": {...}
    }
  }
}

Não é possível definir detalhes do contêiner no nível do job híbrido ou do gatilho de jobs híbridos.

Rótulos obrigatórios

Se você definir rótulos obrigatórios ao criar um gatilho híbrido de job ou job, todas as solicitações hybridInspect enviadas para esse gatilho precisarão incluir esses rótulos. Para mais informações, consulte Exigir rótulos de solicitações hybridInspect.

Rótulos opcionais

Em cada solicitação hybridInspect, é possível especificar pares de chave-valor que serão anexados a qualquer descoberta nessa solicitação. Esse método permite anexar rótulos diferentes a cada solicitação hybridInspect.

Opções de dados tabulares

É possível especificar qualquer coluna que seja um identificador de linha (chaves primárias) para objetos de tabela nos seus dados. Se houver colunas especificadas na tabela, os valores delas serão incluídos com cada descoberta para que você possa rastrear a descoberta até a linha de origem. Essas opções tabulares se aplicam somente a solicitações que enviam dados tabulares, como um formato item.table ou byteItem, como CSV.

Se você não souber as chaves primárias antecipadamente, não precisará configurá-las no nível de gatilho híbrido ou job. É possível defini-las na solicitação hybridInspect com os dados tabulares a serem inspecionados. Todos os campos listados no nível de gatilho híbrido ou de job híbrido são combinados com os listados na solicitação hybridInspect.

Ações compatíveis

Assim como outros jobs do Cloud DLP, os jobs híbridos são compatíveis com ações. Nem todas as ações se aplicam a jobs híbridos. Veja a seguir as ações compatíveis atualmente, além de informações sobre como elas funcionam. Esteja ciente de que, com as ações do Pub/Sub, de e-mail e do Cloud Monitoring, as descobertas serão disponibilizadas quando o job terminar.

  • Salvar descobertas no DLP e Salvar descobertas no BigQuery: as descobertas são salvas em um recurso do Cloud DLP ou na tabela do BigQuery, respectivamente. Essas ações funcionam com jobs híbridos de maneira semelhante à maneira como funcionam com outros tipos de job, com uma diferença importante: com os jobs híbridos, as descobertas são disponibilizadas enquanto o job está em execução; já com outros tipos de job, as descobertas são disponibilizadas quando o job termina.
  • Enviar o Pub/Sub: quando um job for concluído, uma mensagem do Pub/Sub será emitida.
  • Enviar e-mail: quando um job for concluído, uma mensagem de e-mail será enviada.
  • Publicar no Cloud Monitoring: quando um job for concluído, as descobertas dele serão publicadas no Monitoring.

Resumo

Veja a seguir alguns dos principais recursos e benefícios do uso de jobs híbridos e acionadores de jobs:

  • Os jobs híbridos permitem que você faça streaming de dados para o Cloud DLP a partir de praticamente qualquer origem, dentro ou fora da nuvem.
  • Os acionadores de jobs híbridos são ativados quando o Cloud DLP recebe um fluxo de dados que inclui uma mensagem de ativação e o identificador do gatilho de jobs.
  • É possível aguardar até que a verificação de inspeção seja concluída ou interromper o job manualmente. Os resultados da inspeção são salvos em um Cloud DLP ou no BigQuery, se você permitir que o job seja concluído ou interrompido antecipadamente.
  • Os resultados da verificação de inspeção do Cloud DLP de um gatilho de job híbrido são salvos em um recurso de job híbrido no Cloud DLP.
  • É possível examinar os resultados da verificação de inspeção visualizando o recurso do gatilho de jobs no Cloud DLP.
  • Também é possível instruir o Cloud DLP para usar uma ação para enviar resultados de jobs híbridos para um banco de dados do BigQuery e notificar você por e-mail ou por notificação do Pub/Sub.

A seguir