Bigtable to Cloud Storage SequenceFile 模板

Bigtable to Cloud Storage SequenceFile 模板是一种流水线，可从 Bigtable 表读取数据并以 SequenceFile 格式将其写入 Cloud Storage 存储桶。您可以使用该模板将数据从 Bigtable 复制到 Cloud Storage。

流水线要求

Bigtable 表必须已存在。
在运行此流水线之前，输出 Cloud Storage 存储桶必须已存在。

模板参数

必需参数

bigtableProject：您要从中读取数据的 Bigtable 实例所属的 Google Cloud 项目的 ID。
bigtableInstanceId：表所属的 Bigtable 实例的 ID。
bigtableTableId：要导出的 Bigtable 表的 ID。
destinationPath：写入数据的 Cloud Storage 路径。例如 gs://your-bucket/your-path/。
filenamePrefix：SequenceFile 文件名的前缀。例如 output-。

可选参数

bigtableAppProfileId：用于导出的 Bigtable 应用配置文件的 ID。如果您没有指定应用配置文件，Bigtable 将使用实例的默认应用配置文件：https://cloud.google.com/bigtable/docs/app-profiles#default-app-profile。
bigtableStartRow：开始导出的行，默认为第一行。
bigtableStopRow：停止导出数据的行，默认为最后一行。
bigtableMaxVersions：单元格版本的最大数量。默认值为：2147483647。
bigtableFilter：过滤条件字符串。请参阅：http://hbase.apache.org/book.html#thrift。默认值为空。

运行模板

控制台

转到 Dataflow 基于模板创建作业页面。

转到“基于模板创建作业”

在作业名称字段中，输入唯一的作业名称。
可选：对于区域性端点，从下拉菜单中选择一个值。默认区域为 us-central1。
如需查看可以在其中运行 Dataflow 作业的区域列表，请参阅 Dataflow 位置。
从 Dataflow 模板下拉菜单中，选择 the Cloud Bigtable to SequenceFile Files on Cloud Storage template 。
在提供的参数字段中，输入您的参数值。
点击运行作业。

gcloud

在 shell 或终端中，运行模板：

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/Cloud_Bigtable_to_GCS_SequenceFile \
    --region REGION_NAME \
    --parameters \
bigtableProject=BIGTABLE_PROJECT_ID,\
bigtableInstanceId=INSTANCE_ID,\
bigtableTableId=TABLE_ID,\
bigtableAppProfileId=APPLICATION_PROFILE_ID,\
destinationPath=DESTINATION_PATH,\
filenamePrefix=FILENAME_PREFIX

替换以下内容：

JOB_NAME：您选择的唯一性作业名称
VERSION：您要使用的模板的版本
您可使用以下值：
- latest，以使用模板的最新版本，该模板在存储桶的未标示日期的父文件夹 (gs://dataflow-templates-REGION_NAME/latest/) 中可用
- 版本名称（如 2023-09-12-00_RC00），以使用模板的特定版本，该版本嵌套在存储桶的相应日期父文件夹 (gs://dataflow-templates-REGION_NAME/) 中
注意：最新版模板可能会随着重大更改而更新。为了防止这些重大更改影响您的生产工作流程，生产环境应使用有最近标示日期的父文件夹中保存的模板。
REGION_NAME：要在其中部署 Dataflow 作业的区域，例如 us-central1
BIGTABLE_PROJECT_ID：您要从中读取数据的 Bigtable 实例的 Google Cloud 项目的 ID
INSTANCE_ID：表所属的 Bigtable 实例的 ID。
TABLE_ID：需要导出的 Bigtable 表的 ID。
APPLICATION_PROFILE_ID：将用于导出的 Bigtable 应用配置文件的 ID。
DESTINATION_PATH：写入数据的 Cloud Storage 路径，例如 gs://mybucket/somefolder
FILENAME_PREFIX：SequenceFile 文件名的前缀，例如 output-

API

如需使用 REST API 来运行模板，请发送 HTTP POST 请求。如需详细了解 API 及其授权范围，请参阅 projects.templates.launch。

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/Cloud_Bigtable_to_GCS_SequenceFile
{
   "jobName": "JOB_NAME",
   "parameters": {
       "bigtableProject": "BIGTABLE_PROJECT_ID",
       "bigtableInstanceId": "INSTANCE_ID",
       "bigtableTableId": "TABLE_ID",
       "bigtableAppProfileId": "APPLICATION_PROFILE_ID",
       "destinationPath": "DESTINATION_PATH",
       "filenamePrefix": "FILENAME_PREFIX",
   },
   "environment": { "zone": "us-central1-f" }
}

替换以下内容：

PROJECT_ID：您要在其中运行 Dataflow 作业的 Google Cloud 项目 ID
JOB_NAME：您选择的唯一性作业名称
VERSION：您要使用的模板的版本
您可使用以下值：
- latest，以使用模板的最新版本，该模板在存储桶的未标示日期的父文件夹 (gs://dataflow-templates-REGION_NAME/latest/) 中可用
- 版本名称（如 2023-09-12-00_RC00），以使用模板的特定版本，该版本嵌套在存储桶的相应日期父文件夹 (gs://dataflow-templates-REGION_NAME/) 中
注意：最新版模板可能会随着重大更改而更新。为了防止这些重大更改影响您的生产工作流程，生产环境应使用有最近标示日期的父文件夹中保存的模板。
LOCATION：要在其中部署 Dataflow 作业的区域，例如 us-central1
BIGTABLE_PROJECT_ID：您要从中读取数据的 Bigtable 实例的 Google Cloud 项目的 ID
INSTANCE_ID：表所属的 Bigtable 实例的 ID。
TABLE_ID：需要导出的 Bigtable 表的 ID。
APPLICATION_PROFILE_ID：将用于导出的 Bigtable 应用配置文件的 ID。
DESTINATION_PATH：写入数据的 Cloud Storage 路径，例如 gs://mybucket/somefolder
FILENAME_PREFIX：SequenceFile 文件名的前缀，例如 output-

模板源代码

Java

此模板的源代码位于 GitHub 上的 GoogleCloudPlatform/cloud-bigtable-client 代码库中。

后续步骤

了解 Dataflow 模板。
参阅 Google 提供的模板列表。