Diese Seite wurde von der Cloud Translation API übersetzt.

Vorlage „Bulk-Komprimierung von Cloud Storage-Dateien“

Die Vorlage "Bulk-Komprimierung von Cloud Storage-Dateien" ist eine Batchpipeline, die Dateien in Cloud Storage an einem festgelegten Speicherort komprimiert. Diese Vorlage kann nützlich sein, wenn Sie große Dateistapel im Rahmen eines periodischen Archivierungsvorgangs komprimieren müssen. Die folgenden Komprimierungsmodi werden unterstützt: BZIP2, DEFLATE, GZIP. Dateien, die an den Zielort ausgegeben werden, folgen dem Namensschema des ursprünglichen Dateinamens, an den die Erweiterung des Komprimierungsmodus angehängt wird. Mögliche Erweiterungen sind: .bzip2, .deflate, .gz.

Alle Fehler, die während des Komprimierungsvorgangs auftreten, werden in der Fehlerdatei im CSV-Format (Dateiname, Fehlermeldung) ausgegeben. Die Fehlerdatei wird auch dann erstellt, wenn während der Ausführung der Pipeline keine Fehler auftreten. Sie enthält dann jedoch keine Fehlerdatensätze.

Pipelineanforderungen

Die Komprimierung muss in einem der folgenden Formate erfolgen: BZIP2, DEFLATE oder GZIP.
Das Ausgabeverzeichnis muss vorhanden sein, damit Sie die Pipeline verwenden können.

Vorlagenparameter

Erforderliche Parameter

inputFilePattern: Der Cloud Storage-Speicherort der Dateien, die Sie verarbeiten möchten. Beispiel: gs://your-bucket/your-files/*.txt.
outputDirectory: Das Pfad- und Dateinamenpräfix zum Schreiben von Ausgabedateien. Muss mit einem Schrägstrich enden. Die DateTime-Formatierung wird verwendet, um den Verzeichnispfad für Datums- und Uhrzeitformatierer zu parsen. Beispiel: gs://your-bucket/your-path.
outputFailureFile: Die Ausgabedatei des Fehlerlogs für Schreibfehler, die während der Komprimierung auftreten. Der Inhalt besteht aus einer Zeile für jede Datei, bei der die Komprimierung fehlgeschlagen ist. Mit diesem Parameter kann die Pipeline die Verarbeitung im Fehlerfall fortsetzen. Beispiel: gs://your-bucket/compressed/failed.csv.
compression: Der Komprimierungsalgorithmus, der zur Komprimierung der übereinstimmenden Dateien verwendet wird. Gültige Algorithmen: BZIP2, DEFLATE, GZIP.

Optionale Parameter

outputFilenameSuffix: Das Suffix für die Namen der Ausgabedateien, die geschrieben werden sollen. Standardmäßig wird je nach Komprimierungsalgorithmus .bzip2, .deflate oder .gz verwendet.

Führen Sie die Vorlage aus.

Console

Rufen Sie die Dataflow-Seite Job aus Vorlage erstellen auf.

Zur Seite "Job aus Vorlage erstellen“

Geben Sie im Feld Jobname einen eindeutigen Jobnamen ein.
Optional: Wählen Sie für Regionaler Endpunkt einen Wert aus dem Drop-down-Menü aus. Die Standardregion ist us-central1.
Eine Liste der Regionen, in denen Sie einen Dataflow-Job ausführen können, finden Sie unter Dataflow-Standorte.
Wählen Sie im Drop-down-Menü Dataflow-Vorlage die Option the Bulk Compress Files on Cloud Storage templateaus.
Geben Sie Ihre Parameterwerte in die Parameterfelder ein.
Klicken Sie auf Job ausführen.

gcloud

Führen Sie die Vorlage in der Shell oder im Terminal aus:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/Bulk_Compress_GCS_Files \
    --region REGION_NAME \
    --parameters \
inputFilePattern=gs://BUCKET_NAME/uncompressed/*.txt,\
outputDirectory=gs://BUCKET_NAME/compressed,\
outputFailureFile=gs://BUCKET_NAME/failed/failure.csv,\
compression=COMPRESSION

Ersetzen Sie Folgendes:

JOB_NAME: ein eindeutiger Jobname Ihrer Wahl
REGION_NAME: die Region, in der Sie Ihren Dataflow-Job bereitstellen möchten, z. B. us-central1
VERSION: Die Version der Vorlage, die Sie verwenden möchten
Sie können die folgenden Werte verwenden:
- latest zur Verwendung der neuesten Version der Vorlage, die im nicht datierten übergeordneten Ordner im Bucket verfügbar ist: gs://dataflow-templates-REGION_NAME/latest/
- Den Versionsnamen wie 2023-09-12-00_RC00, um eine bestimmte Version der Vorlage zu verwenden. Diese ist verschachtelt im jeweiligen datierten übergeordneten Ordner im Bucket enthalten: gs://dataflow-templates-REGION_NAME/.
Achtung: Die neueste Version der Vorlagen wird möglicherweise mit funktionsgefährdenden Änderungen aktualisiert. In Ihren Produktionsumgebungen sollten Vorlagen verwendet werden, die sich im aktuellsten datierten übergeordneten Ordner befinden, um zu verhindern, dass diese funktionsgefährdenden Änderungen Ihre Produktionsworkflows beeinträchtigen.
BUCKET_NAME: der Name Ihres Cloud Storage-Buckets
COMPRESSION: der ausgewählte Komprimierungsalgorithmus

API

Senden Sie eine HTTP-POST-Anfrage, um die Vorlage mithilfe der REST API auszuführen. Weitere Informationen zur API und ihren Autorisierungsbereichen finden Sie unter projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/Bulk_Compress_GCS_Files
{
   "jobName": "JOB_NAME",
   "parameters": {
       "inputFilePattern": "gs://BUCKET_NAME/uncompressed/*.txt&quot;,
       "outputDirectory": ";gs://BUCKET_NAME/compressed",
       "outputFailureFile&quot;: "gs://BUCKET_NAME/failed/failure.csv",
       "compression": "COMPRESSION"
   },
   "environment": { "zone": "us-central1-f" }
}