Job ibridi e trigger di job

I job ibridi e i trigger di job includono un set di metodi API asincroni che ti consentono di analizzare i payload di dati inviati praticamente da qualsiasi origine per individuare informazioni sensibili, quindi di archiviare i risultati in Google Cloud. I job ibridi ti consentono di scrivere i tuoi crawler di dati che si comportano e forniscono dati in modo simile ai metodi di ispezione dell'archiviazione di Cloud Data Loss Prevention.

Utilizzando i job ibridi, puoi eseguire il flusso di dati da qualsiasi origine a Cloud DLP. Cloud DLP controlla i dati per individuare informazioni sensibili o PII e quindi salva i risultati della scansione di ispezione in una risorsa job Cloud DLP. Puoi esaminare i risultati della scansione nell'interfaccia utente o nell'API Cloud DLP Console oppure puoi specificare le azioni post-scansione, come il salvataggio dei dati dei risultati dell'ispezione in una tabella BigQuery o l'emissione di una notifica Pub/Sub.

Il flusso di lavoro dei job ibridi è riassunto nel seguente diagramma:

Diagramma del flusso di lavoro di job ibridi che mostra l'applicazione che invia dati da un'origine esterna a Cloud DLP, Cloud DLP che controlla i dati, quindi salva o pubblica i risultati.

Questo argomento concettuale descrive i job ibridi e i trigger di job e il loro funzionamento. Per informazioni su come implementare i job ibridi e i trigger di job, vedi Ispezione dei dati esterni utilizzando i job ibridi.

Informazioni sugli ambienti ibridi

"Gli ambienti ibridi" sono comuni nelle organizzazioni. Molte organizzazioni archiviano ed elaborano dati sensibili utilizzando una combinazione dei seguenti elementi:

  • Altri cloud provider
  • Server on-premise o altri repository di dati
  • Sistemi di archiviazione non nativi, come i sistemi in esecuzione all'interno di una macchina virtuale
  • App web e per dispositivi mobili
  • Soluzioni basate su Google Cloud

Utilizzando i job ibridi, Cloud DLP può ispezionare i dati che gli sono stati inviati da una di queste origini. Di seguito sono elencati alcuni scenari di esempio:

  • Ispeziona i dati archiviati in Amazon Relational Database Service (RDS), MySQL in esecuzione all'interno di una macchina virtuale o un database on-premise.
  • Ispeziona e tokenizza i dati durante la migrazione da on-premise al cloud o tra produzione, sviluppo e analisi.
  • Ispeziona e oscura le transazioni da un'applicazione web o mobile prima di archiviare i dati at-rest.

Opzioni di ispezione

Come descritto in dettaglio nella sezione Tipi di metodi, quando vuoi ispezionare i contenuti per individuare dati sensibili, Cloud DLP offre tre opzioni predefinite:

  • Ispezione dei metodi dei contenuti: l'ispezione dei contenuti consente di creare flussi di piccoli carichi di dati in Cloud DLP insieme alle istruzioni sugli elementi da esaminare. Cloud DLP controlla quindi l'eventuale presenza di contenuti sensibili e PII nei dati, quindi restituisce i risultati della scansione.
  • Ispezione dei metodi di archiviazione: utilizzando l'ispezione dello spazio di archiviazione, Cloud DLP controlla un repository di archiviazione basato su Google Cloud, ad esempio un database BigQuery, un bucket Cloud Storage o un tipo di datastore. Devi indicare a Cloud DLP cosa controllare e cosa controllare, quindi Cloud DLP esegue un job che analizza il repository. Al termine della scansione, Cloud DLP salva un riepilogo dei risultati della scansione sul job. Puoi inoltre specificare che i risultati vengono inviati a un altro prodotto Google Cloud per l'analisi, ad esempio una tabella BigQuery separata.
  • Controllo dei lavori ibridi: i lavori ibridi offrono i vantaggi di entrambi i due metodi precedenti. Consentono di trasmettere dati in streaming come faresti con i metodi di contenuto, acquisendo al contempo l'archiviazione, la visualizzazione e le azioni dei job di ispezione dell'archiviazione. Tutte le configurazioni di ispezione vengono gestite all'interno di Cloud DLP, senza necessità di configurazione aggiuntiva sul lato client. I job ibridi possono essere utili per la scansione di sistemi di archiviazione non nativi, ad esempio un database in esecuzione su una macchina virtuale (VM), on-premise o su un altro cloud. I metodi ibridi possono essere utili anche per ispezionare i sistemi di elaborazione, ad esempio i carichi di lavoro della migrazione, o perfino per le comunicazioni proxy tra servizi. Anche se i metodi di contenuto possono farlo, i metodi ibridi forniscono il backend di archiviazione dei risultati che può aggregare i tuoi dati in più chiamate API in modo che tu non debba farlo.

Informazioni sui job ibridi e sui trigger di job

Un job ibrido è di fatto un ibrido tra metodi di contenuti e metodi di archiviazione. Il flusso di lavoro di base per l'utilizzo di job ibridi e trigger di job è il seguente:

  1. Scrivi uno script o crei un flusso di lavoro che invia dati a Cloud DLP per l'ispezione insieme ad alcuni metadati.
  2. Configura e crea una risorsa o un trigger di job ibrido per abilitarlo al momento della ricezione dei dati.
  3. Lo script o il flusso di lavoro viene eseguito sul lato client e invia i dati a Cloud DLP sotto forma di richiesta hybridInspect. I dati includono un messaggio di attivazione e l'identificatore del job o del trigger di job, che attiva l'ispezione.
  4. Cloud DLP esamina i dati in base ai criteri impostati nel job ibrido o nel trigger.
  5. Cloud DLP salva i risultati della scansione nella risorsa del job ibrido, insieme ai metadati che fornisci. Puoi esaminare i risultati utilizzando l'interfaccia utente di Cloud DLP in Google Cloud Console.
  6. Facoltativamente, Cloud DLP può eseguire azioni post-scansione, come il salvataggio dei dati dei risultati di ispezione in una tabella BigQuery o l'invio di notifiche via email o Pub/Sub.

Un trigger di job ibrido consente di creare, attivare e arrestare i job in modo da poter eseguire azioni in qualsiasi momento. Facendo in modo che il tuo script o codice invii dati che includono l'identificatore del trigger di job ibrido, non è necessario aggiornare lo script o il codice ogni volta che viene avviato un nuovo job.

Tipici scenari di job ibridi

I lavori ibridi sono adatti per obiettivi come i seguenti:

  • Esegui una scansione una tantum di un database al di fuori di Google Cloud come parte di un controllo spot trimestrale dei database.
  • Monitora tutti i nuovi contenuti aggiunti ogni giorno in un database che Cloud DLP non supporta in modo nativo.
  • Analizza i dati in entrata in un database, controllando al contempo la partizione dei dati.
  • Monitora il traffico in una rete utilizzando il filtro Cloud DLP per Envoy (un filtro HTTP WebAssembly per i proxy sidecar Envoy) per identificare lo spostamento di dati sensibili problematico.

Per informazioni su come affrontare questi scenari, consulta Scenari tipici di ispezione ibrida.

Tipi di metadati che puoi fornire

In questa sezione vengono descritti i tipi di metadati che puoi collegare ai dati esterni che vuoi controllare o ai risultati.

Puoi impostare i metadati ai seguenti livelli:

Metadati in un job ibrido o trigger di job ibrido

Questa sezione descrive i tipi di metadati che puoi collegare a un job ibrido o job trigger ibrido.

Etichette obbligatorie

Nel job ibrido o nel trigger di job ibrido puoi specificare un elenco di etichette obbligatorie che devono essere incluse in tutte le richieste di ispezione ibrida inviate. Eventuali richieste per quel job ibrido o trigger di job ibrido che non includono queste etichette obbligatorie vengono rifiutate. Per ulteriori informazioni, consulta Richiedere le etichette di hybridInspect richieste.

Etichette facoltative

Puoi specificare le coppie chiave-valore da associare a tutti i risultati di un job ibrido o di un trigger di job ibrido. Ad esempio, se vuoi che tutti i risultati di un job ibrido abbiano l'etichetta "env"="prod", devi specificare questa coppia chiave-valore durante la creazione del job ibrido.

Opzioni per i dati tabulari

Puoi specificare qualsiasi colonna che sia identificatore di riga (chiavi principali) per gli oggetti della tabella nei dati. Se le colonne specificate sono presenti nella tabella, i valori delle colonne specificate vengono inclusi in ogni risultato per consentirti di risalire alla riga da cui proviene. Queste opzioni tabulari si applicano solo alle richieste che inviano dati tabulari come un formato item.table o byteItem come CSV.

Se conosci in anticipo le chiavi primarie, puoi impostarle come campi di identificazione quando crei il job ibrido o il trigger di job ibrido. Nel campo hybridOptions.tableOptions.identifyingFields puoi elencare fino a tre nomi di colonna.

Metadati in una richiesta hybridInspect

Questa sezione descrive i tipi di metadati che puoi collegare a una richiesta hybridInspect. I metadati che invii in una richiesta hybridInspect vengono applicati solo a quella richiesta.

Dettagli container

Ogni richiesta di invio a un job ibrido o al trigger di job ibrido può specificare dettagli sull'origine dati, inclusi elementi come fullPath, rootPath, relativePath, type, version e altri. Ad esempio, se stai scansionando le tabelle in un database, puoi impostare i campi come segue:

{
  "hybridItem": {
    "item": {...},
    "findingDetails": {
      "containerDetails": {
        "fullPath": "10.0.0.20/database1/table1",
        "relativePath": "table1",
        "rootPath": "10.0.0.20/database1",
        "type": "postgres",
        "version": "9.6"
      },
      "labels": {...}
    }
  }
}

Non puoi impostare i dettagli del container a livello di job ibrido o di trigger di job ibrido.

Etichette obbligatorie

Se imposti le etichette obbligatorie durante la creazione di un job ibrido o trigger di job ibrido, qualsiasi richiesta hybridInspect che invii al job ibrido o al trigger di job ibrido deve includere le etichette richieste. Per ulteriori informazioni, consulta Richiedi etichette di hybridInspect richieste.

Etichette facoltative

In ogni richiesta hybridInspect, puoi specificare le coppie chiave-valore da associare a tutti i risultati di quella richiesta. Questo metodo ti consente di allegare etichette diverse a ogni richiesta hybridInspect.

Opzioni per i dati tabulari

Puoi specificare qualsiasi colonna che sia identificatore di riga (chiavi principali) per gli oggetti della tabella nei dati. Se le colonne specificate sono presenti nella tabella, i valori delle colonne specificate vengono inclusi in ogni risultato per consentirti di risalire alla riga da cui proviene. Queste opzioni tabulari si applicano solo alle richieste che inviano dati tabulari come un formato item.table o byteItem come CSV.

Se non conosci in anticipo le chiavi primarie, non devi impostarle a livello di job ibrido o di trigger di job ibrido. Puoi impostarle nella tua richiesta hybridInspect insieme ai dati tabulari da esaminare. Tutti i campi elencati a livello di job ibrido o di trigger di job ibrido vengono combinati con quelli elencati nella richiesta hybridInspect.

Azioni supportate

Come altri job Cloud DLP, i job ibridi supportano le azioni. Non tutte le azioni si applicano ai job ibridi. Di seguito sono riportate le azioni attualmente supportate insieme alle informazioni su come funzionano. Tieni presente che con le azioni Pub/Sub, email e Cloud Monitoring, i risultati vengono resi disponibili al termine del job.

  • Salva i risultati in DLP e Salva i risultati in BigQuery: i risultati vengono salvati rispettivamente in una risorsa di Cloud DLP o una tabella BigQuery. Queste azioni funzionano con i job ibridi in modo simile a quanto avviene con gli altri tipi di job, con un'importante differenza: con i job ibridi vengono resi disponibili risultati mentre il job è in esecuzione; con altri tipi di job, i risultati vengono resi disponibili al termine del job.
  • Invia Pub/Sub: al termine di un job, verrà emesso un messaggio Pub/Sub.
  • Invia email: una volta completato un lavoro, verrà inviato un messaggio email.
  • Pubblica su Cloud Monitoring: al termine di un job, i relativi risultati verranno pubblicati su Monitoring.

Riepilogo

Di seguito sono riportati alcune funzionalità chiave e i vantaggi dell'utilizzo dei job ibridi e dei trigger di job:

  • I job ibridi consentono di trasmettere flussi di dati a Cloud DLP praticamente da qualsiasi origine, on-off o cloud.
  • I trigger di job ibridi si attivano quando Cloud DLP riceve uno stream di dati che include un messaggio di attivazione e l'identificatore del trigger di job.
  • Puoi attendere il completamento della scansione di ispezione o interrompere il job manualmente. I risultati del controllo vengono salvati in Cloud DLP o in BigQuery per consentirti di terminare il job o interromperlo in anticipo.
  • I risultati dell'analisi di ispezione di Cloud DLP da un trigger di job ibrido vengono salvati in una risorsa di job ibrido all'interno di Cloud DLP.
  • Puoi esaminare i risultati della scansione di ispezione visualizzando la risorsa trigger di job all'interno di Cloud DLP.
  • Puoi anche indicare a Cloud DLP di utilizzare un'azione per inviare risultati di job ibridi a un database BigQuery e inviarti notifiche via email o Pub/Sub.

Passaggi successivi