Job ibridi e trigger di job

I job ibridi e i trigger di job comprendono un insieme di metodi API asincroni che consentono di analizzare payload di dati inviati praticamente da qualsiasi origine per individuare informazioni sensibili e quindi archiviare i risultati in Google Cloud. I job ibridi consentono di scrivere crawler di dati che si comportano e gestiscono dati in modo simile ai metodi di ispezione dell'archiviazione di Sensitive Data Protection.

Con i job ibridi, puoi trasmettere il flusso di dati da qualsiasi origine a Sensitive Data Protection. Sensitive Data Protection esamina i dati per individuare informazioni sensibili o PII, quindi salva i risultati della scansione di ispezione in una risorsa job di Sensitive Data Protection. Puoi esaminare i risultati della scansione nell'API o nell'interfaccia utente della console Sensitive Data Protection Console oppure puoi specificare le azioni post-scansione da eseguire, come il salvataggio dei dati dei risultati dell'ispezione in una tabella BigQuery o l'emissione di una notifica Pub/Sub.

Il flusso di lavoro per i job ibridi è riassunto nel seguente diagramma:

Diagramma del flusso di lavoro dei job ibridi, che mostra la tua applicazione che invia dati da un'origine esterna a Sensitive Data Protection, Sensitive Data Protection che esamina i dati e quindi salva o pubblica i risultati.

Questo argomento concettuale descrive i job ibridi e i trigger di job e il loro funzionamento. Per informazioni su come implementare job ibridi e trigger di job, consulta Ispezione di dati esterni utilizzando job ibridi.

Informazioni sugli ambienti ibridi

Gli ambienti "ibridi" sono comuni nelle organizzazioni. Molte organizzazioni archiviano ed elaborano i dati sensibili utilizzando una combinazione dei seguenti elementi:

  • Altri cloud provider
  • Server on-premise o altri repository di dati
  • Sistemi di archiviazione non nativi, come i sistemi in esecuzione all'interno di una macchina virtuale
  • App web e per dispositivi mobili
  • Soluzioni basate su Google Cloud

Utilizzando job ibridi, Sensitive Data Protection può esaminare i dati inviati da una di queste origini. Ecco alcuni scenari di esempio:

  • Ispeziona i dati archiviati in Amazon Relational Database Service (RDS), MySQL in esecuzione all'interno di una macchina virtuale o in un database on-premise.
  • Ispeziona e tokenizza i dati durante la migrazione da on-premise al cloud o tra produzione, sviluppo e analisi.
  • Esamina e oscura le transazioni da un'applicazione web o mobile prima di archiviare i dati at-rest.

Opzioni di ispezione

Come descritto più dettagliatamente in Tipi di metodo, quando vuoi ispezionare i contenuti per individuare dati sensibili, Sensitive Data Protection offre tre opzioni predefinite:

  • Ispezione dei metodi di contenuto: utilizzando l'ispezione dei contenuti, trasmetti in streaming piccoli payload di dati a Sensitive Data Protection insieme a istruzioni sugli elementi da ispezionare. Sensitive Data Protection controlla quindi i dati per individuare contenuti sensibili e PII e poi restituisce i risultati della scansione.
  • Ispezione dei metodi di archiviazione: utilizzando l'ispezione dello spazio di archiviazione, Sensitive Data Protection esamina un repository di archiviazione basato su Google Cloud, ad esempio un database BigQuery, un bucket Cloud Storage o un tipo di datastore. Dici a Sensitive Data Protection cosa controllare e cosa controllare, quindi Sensitive Data Protection esegue un job che analizza il repository. Al termine della scansione, Sensitive Data Protection salva un riepilogo dei risultati dell'analisi nel job. Puoi inoltre specificare che i risultati vengono inviati a un altro prodotto Google Cloud per l'analisi, ad esempio una tabella BigQuery separata.
  • Ispezione dei job ibridi: i job ibridi offrono i vantaggi di entrambi i due metodi precedenti. Consentono di trasmettere i flussi di dati come faresti con i metodi di contenuto, ottenendo allo stesso tempo lo spazio di archiviazione, la visualizzazione e le azioni dei job di ispezione dell'archiviazione. L'intera configurazione di ispezione viene gestita all'interno di Sensitive Data Protection, senza necessità di configurazioni aggiuntive sul lato client. I job ibridi possono essere utili per la scansione di sistemi di archiviazione non nativi come un database in esecuzione su una macchina virtuale (VM), on-premise o su un altro cloud. I metodi ibridi possono essere utili anche per ispezionare sistemi di elaborazione come i carichi di lavoro di migrazione o anche per eseguire un proxy della comunicazione tra servizi. Anche se i metodi basati sui contenuti possono farlo, i metodi ibridi forniscono il backend di archiviazione dei risultati in grado di aggregare i dati in più chiamate API al posto tuo.

Informazioni su job ibridi e trigger di job

Un job ibrido è di fatto un ibrido di metodi di contenuto e di archiviazione. Il flusso di lavoro di base per l'utilizzo di job ibridi e trigger di job è il seguente:

  1. Scrivi uno script o crea un flusso di lavoro che invii i dati a Sensitive Data Protection per l'ispezione insieme ad alcuni metadati.
  2. Puoi configurare e creare una risorsa job o un trigger ibrido e abilitarne l'attivazione quando riceve dati.
  3. Lo script o il flusso di lavoro viene eseguito sul lato client e invia i dati a Sensitive Data Protection sotto forma di richiesta hybridInspect. I dati includono un messaggio di attivazione e l'identificatore del job o del trigger del job che attiva l'ispezione.
  4. Sensitive Data Protection esamina i dati in base ai criteri impostati nel job o nel trigger ibrido.
  5. Sensitive Data Protection salva i risultati della scansione nella risorsa del job ibrido, insieme ai metadati che fornisci. Puoi esaminare i risultati utilizzando l'UI di Sensitive Data Protection nella console Google Cloud.
  6. Facoltativamente, Sensitive Data Protection può eseguire azioni post-scansione, come il salvataggio dei dati dei risultati dell'ispezione in una tabella BigQuery o una notifica via email o Pub/Sub.

Un trigger di job ibrido consente di creare, attivare e arrestare job in modo da attivare le azioni ogni volta che ne hai bisogno. Se ti assicuri che lo script o il codice invii dati che includono l'identificatore del trigger del job ibrido, non è necessario aggiornare lo script o il codice ogni volta che viene avviato un nuovo job.

Scenari tipici di job ibridi

I job ibridi sono adatti a obiettivi come i seguenti:

  • Esegui una scansione una tantum di un database esterno a Google Cloud nell'ambito di un controllo spot trimestrale dei database.
  • Monitora tutti i nuovi contenuti aggiunti quotidianamente a un database che Sensitive Data Protection non supporta in modo nativo.
  • Scansiona i dati in entrata in un database, controllando al contempo il modo in cui i dati sono partizionati.
  • Monitora il traffico in una rete utilizzando Sensitive Data Protection Filtro per Envoy (un filtro HTTP WebAssembly per i proxy sidecar Envoy) per identificare lo spostamento problematico di dati sensibili.

Per informazioni su come affrontare questi scenari, consulta Scenari tipici di ispezione ibrida.

Tipi di metadati che puoi fornire

Questa sezione descrive i tipi di metadati che puoi collegare ai dati esterni che vuoi ispezionare o ai risultati.

Puoi impostare i metadati ai seguenti livelli:

Metadati in un job ibrido o trigger di job ibrido

Questa sezione descrive i tipi di metadati che puoi collegare a un trigger di job ibrido o ibrido.

Etichette obbligatorie

Nel trigger di job ibrido o ibrido, puoi specificare un elenco di etichette obbligatorie che devono essere incluse in tutte le richieste di ispezione ibrida che invii. Eventuali richieste per quel trigger di job ibrido o ibrido che non includono queste etichette obbligatorie vengono rifiutate. Per maggiori informazioni, consulta Richiedere etichette per le richieste hybridInspect.

Etichette facoltative

Puoi specificare le coppie chiave-valore da associare a tutti i risultati da un trigger di job ibrido o ibrido. Ad esempio, se vuoi che tutti i risultati di un job ibrido abbiano l'etichetta "env"="prod", devi specificare questa coppia chiave-valore durante la creazione del job ibrido.

Opzioni per i dati tabulari

Puoi specificare qualsiasi colonna che sia identificatore di riga (chiavi primarie) per gli oggetti della tabella nei tuoi dati. Se le colonne specificate sono presenti nella tabella, i valori delle colonne specificate sono inclusi insieme a ogni risultato, in modo da poter tenere traccia dei risultati fino alla riga da cui provengono. Queste opzioni tabulari si applicano solo alle richieste che inviano dati tabulari, come i formati item.table o byteItem come CSV.

Se conosci in anticipo le chiavi primarie, puoi impostarle come campi di identificazione quando crei il trigger di job ibrido o ibrido. Puoi elencare fino a tre nomi di colonna nel campo hybridOptions.tableOptions.identifyingFields.

Metadati in una richiesta hybridInspect

Questa sezione descrive i tipi di metadati che puoi allegare a una richiesta hybridInspect. I metadati inviati in una richiesta hybridInspect vengono applicati solo a tale richiesta.

Dettagli container

Ogni richiesta inviata a un trigger di job ibrido o ibrido può specificare dettagli sull'origine dati, inclusi elementi come fullPath, rootPath, relativePath, type, version e altri. Ad esempio, se esegui la scansione delle tabelle in un database, puoi impostare i campi come segue:

{
  "hybridItem": {
    "item": {...},
    "findingDetails": {
      "containerDetails": {
        "fullPath": "10.0.0.20/database1/table1",
        "relativePath": "table1",
        "rootPath": "10.0.0.20/database1",
        "type": "postgres",
        "version": "9.6"
      },
      "labels": {...}
    }
  }
}

Non puoi impostare i dettagli del container a livello di job ibrido o trigger di job ibrido.

Etichette obbligatorie

Se imposti le etichette obbligatorie durante la creazione di un job ibrido o un trigger di job ibrido, qualsiasi richiesta hybridInspect che invii a quel trigger di job ibrido o ibrido deve includere queste etichette obbligatorie. Per maggiori informazioni, consulta Richiedere le etichette dalle richieste hybridInspect.

Etichette facoltative

In ogni richiesta hybridInspect, puoi specificare le coppie chiave-valore da associare a qualsiasi risultato nella richiesta. Questo metodo consente di associare etichette diverse a ogni richiesta hybridInspect.

Opzioni per i dati tabulari

Puoi specificare qualsiasi colonna che sia identificatore di riga (chiavi primarie) per gli oggetti della tabella nei tuoi dati. Se le colonne specificate sono presenti nella tabella, i valori delle colonne specificate sono inclusi insieme a ogni risultato, in modo da poter tenere traccia dei risultati fino alla riga da cui provengono. Queste opzioni tabulari si applicano solo alle richieste che inviano dati tabulari, come i formati item.table o byteItem come CSV.

Se non conosci in anticipo le chiavi primarie, non è necessario impostarle a livello di trigger di job ibrido o ibrido. Puoi impostarli nella tua richiesta hybridInspect insieme ai dati tabulari da ispezionare. Tutti i campi che elenchi a livello di job ibrido o trigger di job ibrido vengono combinati con quelli elencati nella richiesta hybridInspect.

Azioni supportate

Come altri job di Sensitive Data Protection, i job ibridi supportano le azioni. Non tutte le azioni si applicano ai job ibridi. Di seguito sono riportate le azioni attualmente supportate e le informazioni su come funzionano. Tieni presente che con le azioni Pub/Sub, email e Cloud Monitoring, i risultati vengono resi disponibili al termine del job.

  • Salva i risultati in Sensitive Data Protection e Salva i risultati in BigQuery: i risultati vengono salvati rispettivamente in una risorsa Sensitive Data Protection o in una tabella BigQuery. Queste azioni funzionano con i job ibridi in modo simile a come funzionano con altri tipi di job, con una differenza importante: con i job ibridi, i risultati vengono resi disponibili mentre il job è in esecuzione; con altri tipi di job, i risultati sono disponibili al termine del job.
  • Invia Pub/Sub: al termine di un job, viene emesso un messaggio Pub/Sub.

  • Invia email: al termine di un lavoro, verrà inviato un messaggio email.

  • Pubblicazione in Cloud Monitoring: al termine di un job, i risultati verranno pubblicati in Monitoring.

Riepilogo

Di seguito sono riportati alcuni vantaggi e alcune funzionalità chiave dell'utilizzo di job ibridi e trigger di job:

  • I job ibridi consentono di inviare flussi di dati a Sensitive Data Protection praticamente da qualsiasi origine, on-cloud o off-cloud.
  • I trigger di job ibridi si attivano quando Sensitive Data Protection riceve un flusso di dati che include un messaggio di attivazione e l'identificatore del trigger di job.
  • Puoi attendere il completamento della scansione di ispezione oppure arrestare il job manualmente. I risultati dell'ispezione vengono salvati in Sensitive Data Protection o BigQuery, indipendentemente dal fatto che il job venga completato o interrotto in anticipo.
  • I risultati della scansione di ispezione di Sensitive Data Protection da un trigger di job ibrido vengono salvati in una risorsa job ibrido all'interno di Sensitive Data Protection.
  • Puoi esaminare i risultati della scansione di ispezione visualizzando la risorsa del trigger del job in Sensitive Data Protection.
  • Puoi anche indicare a Sensitive Data Protection di inviare i risultati di un job ibrido a un database BigQuery, utilizzando un'azione, e di inviarti una notifica via email o Pub/Sub.

Passaggi successivi