Bulk Decompress Cloud Storage Files 模板

Bulk Decompress Cloud Storage Files 模板是一种批处理流水线，用于将 Cloud Storage 上的文件解压缩到指定位置。此功能适用于以下情况：您希望在迁移过程中使用压缩数据，以最大限度降低网络带宽费用，但在迁移后使用非压缩数据，以最大限度提高分析处理速度。此流水线会在一次运行期间自动处理多种压缩模式，并根据文件扩展名（.bzip2、.deflate、.gz、.zip）确定要使用的解压缩模式。

流水线要求

需要解压缩的文件必须是以下格式之一：Bzip2、Deflate、Gzip、Zip。
在运行流水线之前，必须已存在输出目录。

模板参数

参数	说明
`inputFilePattern`	要从中读取数据的输入文件模式。例如 `gs://bucket-name/compressed/*.gz`。
`outputDirectory`	要向其中写入内容的输出位置。例如 `gs://bucket-name/decompressed`。
`outputFailureFile`	错误日志输出文件，用于写入在解压缩过程中发生的故障。例如 `gs://bucket-name/decompressed/failed.csv`。如果没有发生故障，则系统仍会创建该文件，但其中不会包含任何内容。文件内容采用 CSV 格式（文件名, 错误），并且每行对应一个解压缩失败的文件。

运行模板

控制台

转到 Dataflow 基于模板创建作业页面。

转到“基于模板创建作业”

在作业名称字段中，输入唯一的作业名称。
可选：对于区域性端点，从下拉菜单中选择一个值。默认区域为 us-central1。
如需查看可以在其中运行 Dataflow 作业的区域列表，请参阅 Dataflow 位置。
从 Dataflow 模板下拉菜单中，选择 the Bulk Decompress Files on Cloud Storage template。
在提供的参数字段中，输入您的参数值。
点击运行作业。

gcloud

在 shell 或终端中，运行模板：

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/Bulk_Decompress_GCS_Files \
    --region REGION_NAME \
    --parameters \
inputFilePattern=gs://BUCKET_NAME/compressed/*.gz,\
outputDirectory=gs://BUCKET_NAME/decompressed,\
outputFailureFile=OUTPUT_FAILURE_FILE_PATH

替换以下内容：

JOB_NAME：您选择的唯一性作业名称
REGION_NAME：要在其中部署 Dataflow 作业的区域，例如 us-central1
VERSION：您要使用的模板的版本
您可使用以下值：
- latest，以使用模板的最新版本，该模板在存储桶的未标示日期的父文件夹 (gs://dataflow-templates-REGION_NAME/latest/) 中可用
- 版本名称（如 2023-09-12-00_RC00），以使用模板的特定版本，该版本嵌套在存储桶的相应日期父文件夹 (gs://dataflow-templates-REGION_NAME/) 中
注意：最新版模板可能会随着重大更改而更新。为了防止这些重大更改影响您的生产工作流程，生产环境应使用有最近标示日期的父文件夹中保存的模板。
BUCKET_NAME - Cloud Storage 存储桶的名称。
OUTPUT_FAILURE_FILE_PATH：您选择的包含失败信息的文件的路径

API

如需使用 REST API 来运行模板，请发送 HTTP POST 请求。如需详细了解 API 及其授权范围，请参阅 projects.templates.launch。

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/Bulk_Decompress_GCS_Files
{
   "jobName": "JOB_NAME",
   "parameters": {
       "inputFilePattern": "gs://BUCKET_NAME/compressed/*.gz",
       "outputDirectory": "gs://BUCKET_NAME/decompressed",
       "outputFailureFile": "OUTPUT_FAILURE_FILE_PATH"
   },
   "environment": { "zone": "us-central1-f" }
}