Questa pagina è stata tradotta dall'API Cloud Translation.

Modello di mascheramento/tokenizzazione dei dati da Cloud Storage a BigQuery (utilizzando Cloud DLP)

Il modello Data masking/tokenizzazione da Cloud Storage a BigQuery utilizza Sensitive Data Protection e crea una pipeline di streaming che esegue i seguenti passaggi:

Legge i file CSV da un bucket Cloud Storage.
Chiama l'API Cloud Data Loss Prevention (parte di Sensitive Data Protection) per l'anonimizzazione.
Scrive i dati anonimizzati nella tabella BigQuery specificata.

Il modello supporta l'utilizzo sia di un modello di ispezione di Sensitive Data Protection sia di un modello di anonimizzazione di Sensitive Data Protection. Di conseguenza, il modello supporta entrambe le seguenti attività:

Ispeziona la presenza di informazioni potenzialmente sensibili e rimuovi l'identificazione dei dati.
Anonimizza i dati strutturati in cui le colonne sono specificate per l'anonimizzazione e non è necessaria alcuna ispezione.

Questo modello non supporta un percorso regionale per la posizione del modello di deidentificazione. È supportato solo un percorso globale.

Requisiti della pipeline

I dati di input da tokenizzare devono esistere.
I modelli di Sensitive Data Protection devono esistere (ad esempio DeidentifyTemplate e InspectTemplate). Per ulteriori dettagli, consulta Modelli di Sensitive Data Protection.
Il set di dati BigQuery deve esistere.

Parametri del modello

Parametri obbligatori

inputFilePattern: i file CSV da cui leggere i record di dati di input. Sono accettati anche i caratteri jolly. Ad esempio, gs://mybucket/my_csv_filename.csv or gs://mybucket/file-*.csv.
deidentifyTemplateName: il modello di anonimizzazione Sensitive Data Protection da utilizzare per le richieste API, specificato con il pattern projects/<PROJECT_ID>/deidentifyTemplates/<TEMPLATE_ID>. Ad esempio: projects/your-project-id/locations/global/deidentifyTemplates/generated_template_id.
datasetName: il set di dati BigQuery da utilizzare per l'invio dei risultati tokenizzati. Il set di dati deve esistere prima dell'esecuzione.
dlpProjectId: l'ID del progetto Google Cloud proprietario della risorsa API DLP. Può trattarsi dello stesso progetto proprietario dei modelli Sensitive Data Protection o di un progetto separato.

Parametri facoltativi

inspectTemplateName: il modello di ispezione Sensitive Data Protection da utilizzare per le richieste API, specificato con il pattern projects/<PROJECT_ID>/identifyTemplates/<TEMPLATE_ID>. Ad esempio: projects/your-project-id/locations/global/inspectTemplates/generated_template_id.
batchSize: la dimensione del chunking o del batch da utilizzare per l'invio dei dati da esaminare e detokenizzare. Per un file CSV, il valore di batchSize è il numero di righe in un batch. Determina le dimensioni del batch in base alle dimensioni dei record e del file. L'API DLP ha un limite di dimensione del payload di 524 kB per chiamata API.

Esegui il modello

Console

Vai alla pagina Crea job da modello di Dataflow.

Vai a Crea job da modello

Nel campo Nome job, inserisci un nome univoco per il job.
(Facoltativo) Per Endpoint a livello di regione, seleziona un valore dal menu a discesa. La regione predefinita è us-central1.
Per un elenco delle regioni in cui puoi eseguire un job Dataflow, consulta Località di Dataflow.
Dal menu a discesa Modello Dataflow, seleziona the Data Masking/Tokenization from Cloud Storage to BigQuery (using Cloud DLP) template.
Nei campi dei parametri forniti, inserisci i valori dei parametri.
Fai clic su Esegui job.

gcloud

Nella shell o nel terminale, esegui il modello:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/Stream_DLP_GCS_Text_to_BigQuery \
    --region REGION_NAME \
    --staging-location STAGING_LOCATION \
    --parameters \
inputFilePattern=INPUT_DATA,\
datasetName=DATASET_NAME,\
batchSize=BATCH_SIZE_VALUE,\
dlpProjectId=DLP_API_PROJECT_ID,\
deidentifyTemplateName=projects/TEMPLATE_PROJECT_ID/deidentifyTemplates/DEIDENTIFY_TEMPLATE,\
inspectTemplateName=projects/TEMPLATE_PROJECT_ID/identifyTemplates/INSPECT_TEMPLATE_NUMBER

Sostituisci quanto segue:

DLP_API_PROJECT_ID: l'ID progetto dell'API DLP
JOB_NAME: un nome univoco del job a tua scelta
REGION_NAME: la regione in cui vuoi eseguire il deployment del job Dataflow, ad esempio us-central1
VERSION: la versione del modello che vuoi utilizzare
Puoi utilizzare i seguenti valori:
- latest per utilizzare l'ultima versione del modello, disponibile nella cartella principale senza data nel bucket: gs://dataflow-templates-REGION_NAME/latest/
- il nome della versione, ad esempio 2023-09-12-00_RC00, per utilizzare una versione specifica del modello, che si trova nidificata nella rispettiva cartella principale con data nel bucket: gs://dataflow-templates-REGION_NAME/
Attenzione:l'ultima versione dei modelli potrebbe essere aggiornata con modifiche che causano interruzioni. Gli ambienti di produzione devono utilizzare i modelli conservati nella cartella principale con data più recente per evitare che queste modifiche che causano interruzioni influiscano sui workflow di produzione.
STAGING_LOCATION: la posizione per lo staging dei file locali (ad esempio, gs://your-bucket/staging)
INPUT_DATA: il percorso del file di input
DEIDENTIFY_TEMPLATE: il numero del modello Sensitive Data ProtectionDeidentify
DATASET_NAME: il nome del set di dati BigQuery
INSPECT_TEMPLATE_NUMBER: il numero del modello di ispezione Sensitive Data Protection
BATCH_SIZE_VALUE: le dimensioni del batch (numero di righe per API per i file CSV)

REST

Per eseguire il modello utilizzando l'API REST, invia una richiesta POST HTTP. Per ulteriori informazioni sull'API e sui relativi ambiti di autorizzazione, consulta projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/Stream_DLP_GCS_Text_to_BigQuery
{
   "jobName": "JOB_NAME",
   "environment": {
       "ipConfiguration": "WORKER_IP_UNSPECIFIED",
       "additionalExperiments": []
   },
   "parameters": {
      "inputFilePattern":INPUT_DATA,
      "datasetName": "DATASET_NAME",
      "batchSize": "BATCH_SIZE_VALUE",
      "dlpProjectId": "DLP_API_PROJECT_ID",
      "deidentifyTemplateName": "projects/TEMPLATE_PROJECT_ID/deidentifyTemplates/DEIDENTIFY_TEMPLATE",
      "inspectTemplateName": "projects/TEMPLATE_PROJECT_ID/identifyTemplates/INSPECT_TEMPLATE_NUMBER"
   }
}