Questa pagina è stata tradotta dall'API Cloud Translation.

Modello Compressione in blocco dei file di Cloud Storage

Il modello Bulk Compress Cloud Storage Files è una pipeline batch che comprime i file su Cloud Storage in una posizione specificata. Questo modello può essere utile se devi comprimere grandi gruppi di file nell'ambito di procedure periodiche di archiviazione. Le modalità di compressione supportate sono: BZIP2, DEFLATE, GZIP. I file compressi collocati nella posizione della destinazione seguiranno lo schema di denominazione che prevede il nome file originale seguito dall'estensione della modalità di compressione. Le estensioni aggiunte saranno una delle seguenti: .bzip2, .deflate, .gz.

Eventuali errori che si verificano durante il processo di compressione verranno riportati nel file degli errori in formato CSV come record contenenti nome file e messaggio di errore. Se non si verificano errori durante l'esecuzione della pipeline, verrà comunque creato un file degli errori, ma non conterrà alcun record.

Requisiti della pipeline

La compressione deve avvenire in uno dei seguenti formati: BZIP2, DEFLATE, GZIP.
La directory di output deve esistere prima dell'esecuzione della pipeline.

Parametri del modello

Parametri obbligatori

inputFilePattern: la posizione Cloud Storage dei file che vuoi elaborare. Ad esempio, gs://your-bucket/your-files/*.txt.
outputDirectory: il percorso e il prefisso del nome file per la scrittura dei file di output. Deve terminare con una barra. La formattazione DateTime viene utilizzata per analizzare il percorso della directory per i formattatori di data e ora. Ad esempio, gs://your-bucket/your-path.
outputFailureFile: il file di output del log degli errori da utilizzare per gli errori di scrittura che si verificano durante la compressione. I contenuti saranno una riga per ogni file per cui la compressione non è riuscita. Tieni presente che questo parametro consente alla pipeline di continuare l'elaborazione in caso di errore. Ad esempio, gs://your-bucket/compressed/failed.csv.
compressione: l'algoritmo di compressione utilizzato per comprimere i file corrispondenti. Algoritmi validi: BZIP2, DEFLATE, GZIP.

Parametri facoltativi

outputFilenameSuffix: suffisso del nome file di output dei file da scrivere. Il valore predefinito è .bzip2, .deflate o .gz a seconda dell'algoritmo di compressione.

Esegui il modello

Console

Vai alla pagina Crea job da modello di Dataflow.

Vai a Crea job da modello

Nel campo Nome job, inserisci un nome univoco per il job.
(Facoltativo) Per Endpoint a livello di regione, seleziona un valore dal menu a discesa. La regione predefinita è us-central1.
Per un elenco delle regioni in cui puoi eseguire un job Dataflow, consulta Località di Dataflow.
Dal menu a discesa Modello Dataflow, seleziona the Bulk Compress Files on Cloud Storage template.
Nei campi dei parametri forniti, inserisci i valori dei parametri.
Fai clic su Esegui job.

gcloud

Nella shell o nel terminale, esegui il modello:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/Bulk_Compress_GCS_Files \
    --region REGION_NAME \
    --parameters \
inputFilePattern=gs://BUCKET_NAME/uncompressed/*.txt,\
outputDirectory=gs://BUCKET_NAME/compressed,\
outputFailureFile=gs://BUCKET_NAME/failed/failure.csv,\
compression=COMPRESSION

Sostituisci quanto segue:

JOB_NAME: un nome univoco del job a tua scelta
REGION_NAME: la regione in cui vuoi eseguire il deployment del job Dataflow, ad esempio us-central1
VERSION: la versione del modello che vuoi utilizzare
Puoi utilizzare i seguenti valori:
- latest per utilizzare l'ultima versione del modello, disponibile nella cartella principale senza data nel bucket: gs://dataflow-templates-REGION_NAME/latest/
- il nome della versione, ad esempio 2023-09-12-00_RC00, per utilizzare una versione specifica del modello, che si trova nidificata nella rispettiva cartella principale con data nel bucket: gs://dataflow-templates-REGION_NAME/
Attenzione:l'ultima versione dei modelli potrebbe essere aggiornata con modifiche che causano interruzioni. Gli ambienti di produzione devono utilizzare i modelli conservati nella cartella principale con data più recente per evitare che queste modifiche che causano interruzioni influiscano sui workflow di produzione.
BUCKET_NAME: il nome del bucket Cloud Storage
COMPRESSION: l'algoritmo di compressione che hai scelto

API

Per eseguire il modello utilizzando l'API REST, invia una richiesta POST HTTP. Per ulteriori informazioni sull'API e sui relativi ambiti di autorizzazione, consulta projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/Bulk_Compress_GCS_Files
{
   "jobName": "JOB_NAME",
   "parameters": {
       "inputFilePattern": "gs://BUCKET_NAME/uncompressed/*.txt",
       "outputDirectory": "gs://BUCKET_NAME/compressed",
       "outputFailureFile": "gs://BUCKET_NAME/failed/failure.csv",
       "compression": "COMPRESSION"
   },
   "environment": { "zone": "us-central1-f" }
}