使用 Workflows 执行 Cloud Run 作业


借助 Workflows,您可以在工作流中执行 Cloud Run 作业,以执行更复杂的数据处理或编排现有作业的系统。

本教程演示了如何使用 Workflows 执行 Cloud Run 作业,以响应来自 Cloud Storage 的事件,处理作为环境变量传递给作业的数据。

请注意,您还可以在 Cloud Storage 存储桶中存储事件数据,这样您就可以使用客户管理的加密密钥来加密数据。如需了解详情,请参阅执行用于处理存储在 Cloud Storage 中的事件数据的 Cloud Run 作业

目标

在此教程中,您将学习以下操作:

  1. 创建一个 Cloud Run 作业,用于处理 Cloud Storage 存储桶中的数据文件。
  2. 部署一个工作流,以执行以下操作:
    1. 接受 Cloud Storage 事件作为参数。
    2. 检查事件中指定的 Cloud Storage 存储桶是否与 Cloud Run 作业使用的存储桶相同。
    3. 如果是,请使用 Cloud Run Admin API 连接器执行 Cloud Run 作业。
  3. 创建 Eventarc 触发器,以响应影响 Cloud Storage 存储桶的事件来执行工作流。
  4. 通过更新 Cloud Storage 存储桶中的输入数据文件来触发工作流。

费用

在本文档中,您将使用 Google Cloud 的以下收费组件:

您可使用价格计算器根据您的预计使用情况来估算费用。 Google Cloud 新用户可能有资格申请免费试用

准备工作

您的组织定义的安全限制条件可能会导致您无法完成以下步骤。如需了解相关问题排查信息,请参阅在受限的 Google Cloud 环境中开发应用

控制台

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Artifact Registry, Cloud Build, Cloud Run, Cloud Storage, Eventarc, and Workflows APIs.

    Enable the APIs

  5. Create a service account:

    1. In the Google Cloud console, go to the Create service account page.

      Go to Create service account
    2. Select your project.
    3. In the Service account name field, enter a name. The Google Cloud console fills in the Service account ID field based on this name.

      In the Service account description field, enter a description. For example, Service account for quickstart.

    4. Click Create and continue.
    5. Grant the following roles to the service account: Cloud Run Admin, Eventarc Event Receiver, Logs Writer, Workflows Invoker.

      To grant a role, find the Select a role list, then select the role.

      To grant additional roles, click Add another role and add each additional role.

    6. Click Continue.
    7. Click Done to finish creating the service account.

  6. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  7. Make sure that billing is enabled for your Google Cloud project.

  8. Enable the Artifact Registry, Cloud Build, Cloud Run, Cloud Storage, Eventarc, and Workflows APIs.

    Enable the APIs

  9. Create a service account:

    1. In the Google Cloud console, go to the Create service account page.

      Go to Create service account
    2. Select your project.
    3. In the Service account name field, enter a name. The Google Cloud console fills in the Service account ID field based on this name.

      In the Service account description field, enter a description. For example, Service account for quickstart.

    4. Click Create and continue.
    5. Grant the following roles to the service account: Cloud Run Admin, Eventarc Event Receiver, Logs Writer, Workflows Invoker.

      To grant a role, find the Select a role list, then select the role.

      To grant additional roles, click Add another role and add each additional role.

    6. Click Continue.
    7. Click Done to finish creating the service account.

  10. 在为来自 Cloud Storage 的直接事件创建触发器之前,请向 Cloud Storage 服务代理授予 Pub/Sub Publisher 角色 (roles/pubsub.publisher):
    1. 在 Google Cloud 控制台中,前往 IAM 页面。

      转到 IAM

    2. 选中包括 Google 提供的角色授权复选框。
    3. 主账号列中,找到格式为 service-PROJECT_NUMBER@gs-project-accounts.iam.gserviceaccount.com 的 Cloud Storage 服务代理,然后在对应的行中点击 修改主账号
    4. 点击 添加角色添加其他角色
    5. 选择角色列表中,过滤出 Pub/Sub Publisher,然后选择该角色。
    6. 点击保存
  11. 如果您在 2021 年 4 月 8 日当天或之前启用了 Cloud Pub/Sub 服务代理,以支持经过身份验证的 Pub/Sub 推送请求,请向该服务代理授予 Service Account Token Creator 角色 (roles/iam.serviceAccountTokenCreator)。否则,系统会默认授予此角色:
    1. 在 Google Cloud 控制台中,前往 IAM 页面。

      转到 IAM

    2. 选中包括 Google 提供的角色授权复选框。
    3. 名称列中,找到 Cloud Pub/Sub 服务账号,然后点击相应行中的 修改主账号
    4. 点击 添加角色添加其他角色
    5. 选择角色列表中,过滤出 Service Account Token Creator,然后选择该角色。
    6. 点击保存
  12. In the Google Cloud console, activate Cloud Shell.

    Activate Cloud Shell

    At the bottom of the Google Cloud console, a Cloud Shell session starts and displays a command-line prompt. Cloud Shell is a shell environment with the Google Cloud CLI already installed and with values already set for your current project. It can take a few seconds for the session to initialize.

  13. Cloud Shell 支持本教程中用于生成伪随机数的 /dev/urandom 命令。

gcloud

  1. 如需使用已设置 gcloud CLI 的在线终端,请激活 Cloud Shell:

    Cloud Shell 会话会在页面底部启动,并显示命令行提示符。该会话可能需要几秒钟来完成初始化。

    Cloud Shell 支持本教程中用于生成伪随机数的 /dev/urandom 命令。

  2. 创建或选择 Google Cloud 项目。
    • 创建 Google Cloud 项目:

      gcloud projects create PROJECT_ID
    • 选择您创建的 Google Cloud 项目:

      gcloud config set project PROJECT_ID
  3. 确保您的 Google Cloud 项目已启用结算功能
  4. 启用 Artifact Registry, Cloud Build, Cloud Run, Cloud Storage, Eventarc, and Workflows API:
    gcloud services enable artifactregistry.googleapis.com \
        cloudbuild.googleapis.com \
        eventarc.googleapis.com \
        run.googleapis.com \
        storage.googleapis.com \
        workflows.googleapis.com
  5. 为您的工作流创建一个服务账号,以便该工作流用于与其他 Google Cloud 服务进行身份验证,并向其授予适当的角色。
    1. 创建服务账号:
      gcloud iam service-accounts create SERVICE_ACCOUNT_NAME

      SERVICE_ACCOUNT_NAME 替换为服务账号的名称。

    2. 向您在上一步中创建的用户代管式服务账号授予角色。对以下每个 IAM 角色运行以下命令一次,或者您也可以在单个命令中多次使用 --role 标志:
      • roles/eventarc.eventReceiver:接收事件
      • roles/logging.logWriter:用于写入日志
      • roles/run.admin:用于执行 Cloud Run 作业
      • roles/workflows.invoker:用于调用工作流
      gcloud projects add-iam-policy-binding PROJECT_ID \
          --member=serviceAccount:SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com \
          --role=ROLE

      替换以下内容:

      • PROJECT_ID:您在其中创建服务账号的项目的 ID
      • ROLE:要授予用户管理的服务账号的角色
  6. 在为来自 Cloud Storage 的直接事件创建触发器之前,请向 Cloud Storage 服务代理授予 Pub/Sub Publisher 角色 (roles/pubsub.publisher):

    SERVICE_ACCOUNT="$(gcloud storage service-agent --project=PROJECT_ID)"
    
    gcloud projects add-iam-policy-binding PROJECT_ID \
        --member="serviceAccount:${SERVICE_ACCOUNT}" \
        --role='roles/pubsub.publisher'
  7. 如果您在 2021 年 4 月 8 日或之前启用了 Cloud Pub/Sub 服务代理,以支持经过身份验证的 Pub/Sub 推送请求,请向该服务代理授予 Service Account Token Creator 角色 (roles/iam.serviceAccountTokenCreator)。否则,系统会默认授予此角色:
    gcloud projects add-iam-policy-binding PROJECT_ID \
        --member=serviceAccount:service-PROJECT_NUMBER@gcp-sa-pubsub.iam.gserviceaccount.com \
        --role=roles/iam.serviceAccountTokenCreator
  8. PROJECT_NUMBER 替换为您的 Google Cloud 项目编号。您可以在 Google Cloud 控制台的欢迎页面上或者通过运行以下命令找到项目编号:

    gcloud projects describe PROJECT_ID --format='value(projectNumber)'

Terraform

  1. 如需使用已设置 gcloud CLI 的在线终端,请激活 Cloud Shell:

    Cloud Shell 会话会在页面底部启动,并显示命令行提示符。该会话可能需要几秒钟来完成初始化。

    Cloud Shell 支持本教程中用于生成伪随机数的 /dev/urandom 命令。

  2. 创建或选择 Google Cloud 项目。
    • 创建 Google Cloud 项目:

      gcloud projects create PROJECT_ID
    • 选择您创建的 Google Cloud 项目:

      gcloud config set project PROJECT_ID
  3. 确保您的 Google Cloud 项目已启用结算功能
  4. 启用 Artifact Registry, Cloud Build, Cloud Run, Cloud Storage, Eventarc, and Workflows API:
    gcloud services enable artifactregistry.googleapis.com \
        cloudbuild.googleapis.com \
        eventarc.googleapis.com \
        run.googleapis.com \
        storage.googleapis.com \
        workflows.googleapis.com
  5. 为您的工作流创建一个服务账号,以便该工作流使用该账号向其他 Google Cloud 服务进行身份验证,并向其授予适当的角色。此外,为了支持来自 Cloud Storage 的直接事件,请向 Cloud Storage 服务代理授予 Pub/Sub Publisher 角色 (roles/pubsub.publisher)。

    修改 main.tf 文件,如以下示例所示。如需了解详情,请参阅 Terraform 的 Google 提供方文档

    如需了解如何应用或移除 Terraform 配置,请参阅基本 Terraform 命令

    请注意,在典型的 Terraform 工作流中,您会一次性应用整个方案。不过,在本教程中,您可以定位到特定资源。例如:

    terraform apply -target="google_service_account.workflows"

    # Used to retrieve project information later
    data "google_project" "project" {}
    
    # Create a dedicated service account
    resource "google_service_account" "workflows" {
      account_id   = "workflows-run-job-sa"
      display_name = "Workflows Cloud Run Job Service Account"
    }
    
    # Grant permission to receive Eventarc events
    resource "google_project_iam_member" "eventreceiver" {
      project = data.google_project.project.id
      role    = "roles/eventarc.eventReceiver"
      member  = "serviceAccount:${google_service_account.workflows.email}"
    }
    
    # Grant permission to write logs
    resource "google_project_iam_member" "logwriter" {
      project = data.google_project.project.id
      role    = "roles/logging.logWriter"
      member  = "serviceAccount:${google_service_account.workflows.email}"
    }
    
    # Grant permission to execute Cloud Run jobs
    resource "google_project_iam_member" "runadmin" {
      project = data.google_project.project.id
      role    = "roles/run.admin"
      member  = "serviceAccount:${google_service_account.workflows.email}"
    }
    
    # Grant permission to invoke workflows
    resource "google_project_iam_member" "workflowsinvoker" {
      project = data.google_project.project.id
      role    = "roles/workflows.invoker"
      member  = "serviceAccount:${google_service_account.workflows.email}"
    }
    
    # Grant the Cloud Storage service agent permission to publish Pub/Sub topics
    data "google_storage_project_service_account" "gcs_account" {}
    resource "google_project_iam_member" "pubsubpublisher" {
      project = data.google_project.project.id
      role    = "roles/pubsub.publisher"
      member  = "serviceAccount:${data.google_storage_project_service_account.gcs_account.email_address}"
    }
    
  6. 如果您在 2021 年 4 月 8 日或之前启用了 Cloud Pub/Sub 服务代理,以支持经过身份验证的 Pub/Sub 推送请求,请向该服务代理授予 Service Account Token Creator 角色 (roles/iam.serviceAccountTokenCreator)。否则,系统会默认授予此角色:
    gcloud projects add-iam-policy-binding PROJECT_ID \
        --member=serviceAccount:service-PROJECT_NUMBER@gcp-sa-pubsub.iam.gserviceaccount.com \
        --role=roles/iam.serviceAccountTokenCreator
  7. PROJECT_NUMBER 替换为您的 Google Cloud 项目编号。您可以在 Google Cloud 控制台的欢迎页面上或者通过运行以下命令找到项目编号:

    gcloud projects describe PROJECT_ID --format='value(projectNumber)'

创建 Cloud Run 作业

本教程使用 GitHub 上的 Cloud Run 作业示例。该作业会从 Cloud Storage 中的输入文件读取数据,并对文件中的每一行执行一些任意处理。

  1. 将示例应用代码库克隆到本地机器,以获取示例代码:

    git clone https://github.com/GoogleCloudPlatform/jobs-demos.git

    或者,您也可以下载该示例的 ZIP 文件并将其解压缩。

  2. 转到包含示例代码的目录:

    cd jobs-demos/parallel-processing
  3. 创建一个 Cloud Storage 存储桶来存储可写入并触发事件的输入文件:

    控制台

    1. 在 Google Cloud 控制台中,进入 Cloud Storage 存储桶页面。

      进入“存储桶”

    2. 点击 add Create
    3. 创建存储桶页面上,为存储桶输入名称:
      input-PROJECT_ID
      PROJECT_ID 替换为您的 Google Cloud 项目的 ID。
    4. 保留其他默认设置。
    5. 点击创建

    gcloud

    运行 gcloud storage buckets create 命令:

    gcloud storage buckets create gs://input-PROJECT_ID

    如果请求成功,该命令将返回以下消息:

    Creating gs://input-PROJECT_ID/...

    Terraform

    如需创建 Cloud Storage 存储桶,请使用 google_storage_bucket 资源并修改 main.tf 文件,如以下示例所示。

    如需了解如何应用或移除 Terraform 配置,请参阅基本 Terraform 命令

    请注意,在典型的 Terraform 工作流中,您会一次性应用整个方案。不过,在本教程中,您可以定位到特定资源。例如:

    terraform apply -target="random_id.bucket_name_suffix"

    terraform apply -target="google_storage_bucket.default"

    # Cloud Storage bucket names must be globally unique
    resource "random_id" "bucket_name_suffix" {
      byte_length = 4
    }
    
    # Create a Cloud Storage bucket
    resource "google_storage_bucket" "default" {
      name                        = "input-${data.google_project.project.name}-${random_id.bucket_name_suffix.hex}"
      location                    = "us-central1"
      storage_class               = "STANDARD"
      force_destroy               = false
      uniform_bucket_level_access = true
    }
  4. 创建一个 Artifact Registry 标准制品库,您可以在其中存储您的容器映像:

    控制台

    1. 在 Google Cloud 控制台中,前往 Artifact Registry 的制品库页面:

      前往制品库

    2. 点击 创建制品库

    3. 输入代码库的名称,例如 my-repo。对于项目中的每个代码库位置,代码库名称不得重复。

    4. 保留默认格式,该格式应为 Docker

    5. 保留默认模式,该模式应为标准

    6. 在“区域”中,选择 us-central1(爱荷华)

    7. 保留所有其他默认设置。

    8. 点击创建

    gcloud

    运行以下命令:

    gcloud artifacts repositories create REPOSITORY \
        --repository-format=docker \
        --location=us-central1

    REPOSITORY 替换为制品库的唯一名称,例如 my-repo。对于项目中的每个代码库位置,代码库名称不得重复。

    Terraform

    如需创建 Artifact Registry 代码库,请使用 google_artifact_registry_repository 资源并修改 main.tf 文件,如以下示例所示。

    请注意,在典型的 Terraform 工作流中,您会一次性应用整个方案。不过,在本教程中,您可以定位到特定资源。例如:

    terraform apply -target="google_artifact_registry_repository.default"

    # Create an Artifact Registry repository
    resource "google_artifact_registry_repository" "default" {
      location      = "us-central1"
      repository_id = "my-repo"
      format        = "docker"
    }
  5. 使用默认的 Google Cloud Buildpack 构建容器映像:

    export SERVICE_NAME=parallel-job
    gcloud builds submit \
        --pack image=us-central1-docker.pkg.dev/PROJECT_ID/REPOSITORY/${SERVICE_NAME}

    REPOSITORY 替换为您的 Artifact Registry 制品库的名称。

    构建过程可能需要几分钟才能完成。

  6. 创建用于部署容器映像的 Cloud Run 作业:

    控制台

    1. 在 Google Cloud 控制台中,前往 Cloud Run 页面:

      转到 Cloud Run

    2. 点击创建作业,以显示创建作业表单。

      1. 在表单中,选择 us-central1-docker.pkg.dev/PROJECT_ID/REPOSITORY/parallel-job:latest 作为 Artifact Registry 容器映像网址。
      2. 可选:在作业名称中,输入 parallel-job
      3. 可选:对于区域,选择 us-central1(爱荷华)
      4. 对于要在作业中运行的任务数量,请输入 10。所有任务都必须成功完成,这样作业才能成功完成。默认情况下,这些任务是并行执行的。
    3. 展开容器、变量和密钥、连接、安全性部分,并保留所有默认设置,但以下设置除外:

      1. 点击常规标签页。

        1. 对于容器命令,请输入 python
        2. 对于容器参数,请输入 process.py
      2. 点击变量和 Secret 标签页。

        1. 点击添加变量,然后输入 INPUT_BUCKET 作为名称,并输入 input-PROJECT_ID 作为值。
        2. 点击添加变量,然后输入 INPUT_FILE 作为名称,并输入 input_file.txt 作为值。
    4. 如需创建作业,请点击创建

    gcloud

    1. 设置默认 Cloud Run 区域:

      gcloud config set run/region us-central1
    2. 创建 Cloud Run 作业:

      gcloud run jobs create parallel-job \
          --image us-central1-docker.pkg.dev/PROJECT_ID/REPOSITORY/parallel-job:latest \
          --command python \
          --args process.py \
          --tasks 10 \
          --set-env-vars=INPUT_BUCKET=input-PROJECT_ID,INPUT_FILE=input_file.txt

      请注意,如果您未指定映像标记,Artifact Registry 将查找带有默认 latest 标记的映像。

      如需查看创建作业时可用的选项的完整列表,请参阅 gcloud run jobs create 命令行文档。

      作业创建完毕后,您应该会看到一条表示成功的消息。

    Terraform

    如需创建 Cloud Run 作业,请使用 google_cloud_run_v2_job 资源并修改 main.tf 文件,如以下示例所示。

    请注意,在典型的 Terraform 工作流中,您会一次性应用整个方案。不过,在本教程中,您可以定位到特定资源。例如:

    terraform apply -target="google_cloud_run_v2_job.default"

    # Create a Cloud Run job
    resource "google_cloud_run_v2_job" "default" {
      name     = "parallel-job"
      location = "us-central1"
    
      template {
        task_count = 10
        template {
          containers {
            image   = "us-central1-docker.pkg.dev/${data.google_project.project.name}/${google_artifact_registry_repository.default.repository_id}/parallel-job:latest"
            command = ["python"]
            args    = ["process.py"]
            env {
              name  = "INPUT_BUCKET"
              value = google_storage_bucket.default.name
            }
            env {
              name  = "INPUT_FILE"
              value = "input_file.txt"
            }
          }
        }
      }
    }

部署用于执行 Cloud Run 作业的工作流

定义并部署一个工作流,用于执行您刚刚创建的 Cloud Run 作业。工作流定义由一系列使用 Workflows 语法描述的步骤组成。

控制台

  1. 在 Google Cloud 控制台中,前往 Workflows 页面:

    进入 Workflows

  2. 点击 创建

  3. 输入新工作流的名称,例如 cloud-run-job-workflow

  4. 在“区域”中,选择 us-central1(爱荷华)

  5. 服务账号字段中,选择您之前创建的服务账号。

    服务账号充当工作流的身份。您应该已向服务账号授予 Cloud Run Admin 角色,以便该工作流可以执行 Cloud Run 作业。

  6. 点击下一步

  7. 在工作流编辑器中,输入工作流的定义:

    main:
        params: [event]
        steps:
            - init:
                assign:
                    - project_id: ${sys.get_env("GOOGLE_CLOUD_PROJECT_ID")}
                    - event_bucket: ${event.data.bucket}
                    - event_file: ${event.data.name}
                    - target_bucket: ${"input-" + project_id}
                    - job_name: parallel-job
                    - job_location: us-central1
            - check_input_file:
                switch:
                    - condition: ${event_bucket == target_bucket}
                      next: run_job
                    - condition: true
                      next: end
            - run_job:
                call: googleapis.run.v1.namespaces.jobs.run
                args:
                    name: ${"namespaces/" + project_id + "/jobs/" + job_name}
                    location: ${job_location}
                    body:
                        overrides:
                            containerOverrides:
                                env:
                                    - name: INPUT_BUCKET
                                      value: ${event_bucket}
                                    - name: INPUT_FILE
                                      value: ${event_file}
                result: job_execution
            - finish:
                return: ${job_execution}
  8. 点击部署

gcloud

  1. 为工作流创建源代码文件:

    touch cloud-run-job-workflow.yaml
  2. 将以下工作流定义复制到您的源代码文件中:

    main:
        params: [event]
        steps:
            - init:
                assign:
                    - project_id: ${sys.get_env("GOOGLE_CLOUD_PROJECT_ID")}
                    - event_bucket: ${event.data.bucket}
                    - event_file: ${event.data.name}
                    - target_bucket: ${"input-" + project_id}
                    - job_name: parallel-job
                    - job_location: us-central1
            - check_input_file:
                switch:
                    - condition: ${event_bucket == target_bucket}
                      next: run_job
                    - condition: true
                      next: end
            - run_job:
                call: googleapis.run.v1.namespaces.jobs.run
                args:
                    name: ${"namespaces/" + project_id + "/jobs/" + job_name}
                    location: ${job_location}
                    body:
                        overrides:
                            containerOverrides:
                                env:
                                    - name: INPUT_BUCKET
                                      value: ${event_bucket}
                                    - name: INPUT_FILE
                                      value: ${event_file}
                result: job_execution
            - finish:
                return: ${job_execution}
  3. 输入以下命令以部署工作流:

    gcloud workflows deploy cloud-run-job-workflow \
        --location=us-central1 \
        --source=cloud-run-job-workflow.yaml \
        --service-account=SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com

    替换以下内容:

    • SERVICE_ACCOUNT_NAME:您之前创建的服务账号的名称
    • PROJECT_ID:您的 Google Cloud 项目的 ID

    服务账号充当工作流的身份。您应该已向服务账号授予 roles/run.admin 角色,以便工作流可以执行 Cloud Run 作业。

Terraform

如需创建工作流,请使用 google_workflows_workflow 资源并修改 main.tf 文件,如以下示例所示。

如需了解如何应用或移除 Terraform 配置,请参阅基本 Terraform 命令

请注意,在典型的 Terraform 工作流中,您会一次性应用整个方案。不过,在本教程中,您可以定位到特定资源。例如:

terraform apply -target="google_workflows_workflow.default"

# Create a workflow
resource "google_workflows_workflow" "default" {
  name        = "cloud-run-job-workflow"
  region      = "us-central1"
  description = "Workflow that routes a Cloud Storage event and executes a Cloud Run job"

  # Note that $$ is needed for Terraform
  source_contents = <<EOF
  main:
      params: [event]
      steps:
          - init:
              assign:
                  - project_id: $${sys.get_env("GOOGLE_CLOUD_PROJECT_ID")}
                  - event_bucket: $${event.data.bucket}
                  - event_file: $${event.data.name}
                  - target_bucket: "${google_storage_bucket.default.name}"
                  - job_name: parallel-job
                  - job_location: us-central1
          - check_input_file:
              switch:
                  - condition: $${event_bucket == target_bucket}
                    next: run_job
                  - condition: true
                    next: end
          - run_job:
              call: googleapis.run.v1.namespaces.jobs.run
              args:
                  name: $${"namespaces/" + project_id + "/jobs/" + job_name}
                  location: $${job_location}
                  body:
                      overrides:
                          containerOverrides:
                              env:
                                  - name: INPUT_BUCKET
                                    value: $${event_bucket}
                                  - name: INPUT_FILE
                                    value: $${event_file}
              result: job_execution
          - finish:
              return: $${job_execution}
  EOF
}

该工作流会执行以下操作:

  1. init 步骤 - 接受 Cloud Storage 事件作为参数,然后设置必要的变量。

  2. check_input_file 步骤 - 检查事件中指定的 Cloud Storage 存储桶是否为 Cloud Run 作业使用的存储桶。

    • 如果是,工作流会继续执行 run_job 步骤。
    • 如果没有,工作流会终止,停止任何进一步的处理。
  3. run_job 步骤 - 使用 Cloud Run Admin API 连接器的 googleapis.run.v1.namespaces.jobs.run 方法执行作业。Cloud Storage 存储桶和数据文件名称会作为替换变量从工作流传递到作业。

  4. finish 步骤 - 作为工作流的结果,返回有关作业执行的信息。

为工作流创建 Eventarc 触发器

如需在每次更新输入数据文件时自动执行工作流,进而自动执行 Cloud Run 作业,请创建一个 Eventarc 触发器,以响应包含输入数据文件的存储桶中的 Cloud Storage 事件。

控制台

  1. 在 Google Cloud 控制台中,前往 Workflows 页面:

    进入 Workflows

  2. 点击工作流的名称,例如 cloud-run-job-workflow

  3. 工作流详情页面上,点击 修改

  4. 修改工作流页面的触发器部分中,依次点击添加新触发器 > Eventarc

    系统随即会打开 Eventarc 触发器窗格。

  5. 触发器名称字段中,输入触发器的名称,例如 cloud-run-job-workflow-trigger

  6. 事件提供方列表中,选择 Cloud Storage

  7. 事件列表中,选择 google.cloud.storage.object.v1.finalized

  8. 存储桶字段中,选择包含输入数据文件的存储桶。存储桶名称采用 input-PROJECT_ID 格式。

  9. 服务账号字段中,选择您之前创建的服务账号。

    该服务账号充当触发器的身份。您应该已向服务账号授予以下角色:

    • Eventarc Event Receiver:用于接收事件
    • Workflows Invoker:用于执行工作流
  10. 点击保存触发器

    Eventarc 触发器现在显示在修改工作流页面的触发器部分中。

  11. 点击下一步

  12. 点击部署

gcloud

运行以下命令以创建 Eventarc 触发器:

gcloud eventarc triggers create cloud-run-job-workflow-trigger \
    --location=us \
    --destination-workflow=cloud-run-job-workflow  \
    --destination-workflow-location=us-central1 \
    --event-filters="type=google.cloud.storage.object.v1.finalized" \
    --event-filters="bucket=input-PROJECT_ID" \
    --service-account=SERVICE_ACCOUNT_NAME@PROJECT_ID.iam.gserviceaccount.com

替换以下内容:

  • PROJECT_ID:您的 Google Cloud 项目的 ID
  • SERVICE_ACCOUNT_NAME:您之前创建的服务账号的名称。

该服务账号充当触发器的身份。您应该已向服务账号授予以下角色:

  • roles/eventarc.eventReceiver:接收事件
  • roles/workflows.invoker:用于执行工作流

Terraform

如需创建触发器,请使用 google_eventarc_trigger 资源并修改 main.tf 文件,如以下示例所示。

如需了解如何应用或移除 Terraform 配置,请参阅基本 Terraform 命令

请注意,在典型的 Terraform 工作流中,您会一次性应用整个方案。不过,在本教程中,您可以定位特定资源。例如:

terraform apply -target="google_eventarc_trigger.default"

# Create an Eventarc trigger that routes Cloud Storage events to Workflows
resource "google_eventarc_trigger" "default" {
  name     = "cloud-run-job-trigger"
  location = google_workflows_workflow.default.region

  # Capture objects changed in the bucket
  matching_criteria {
    attribute = "type"
    value     = "google.cloud.storage.object.v1.finalized"
  }
  matching_criteria {
    attribute = "bucket"
    value     = google_storage_bucket.default.name
  }

  # Send events to Workflows
  destination {
    workflow = google_workflows_workflow.default.id
  }

  service_account = google_service_account.workflows.email

}

每当在包含输入数据文件的 Cloud Storage 存储桶中上传或覆盖文件时,系统都会使用相应的 Cloud Storage 事件作为参数来执行工作流。

触发工作流

通过更新 Cloud Storage 中的输入数据文件来测试端到端系统。

  1. 为输入文件生成新数据,并将其上传到 Cloud Run 作业预期的 Cloud Storage 位置:

    base64 /dev/urandom | head -c 100000 >input_file.txt
    gcloud storage cp input_file.txt gs://input-PROJECT_ID/input_file.txt

    如果您使用 Terraform 创建了 Cloud Storage 存储桶,则可以通过运行以下命令检索存储桶的名称:

    gcloud storage buckets list gs://input*

    Cloud Run 作业可能需要几分钟才能运行完毕。

  2. 查看作业执行情况,确认 Cloud Run 作业是否按预期运行:

    gcloud config set run/region us-central1
    gcloud run jobs executions list --job=parallel-job

    您应该会在输出中看到作业执行成功的消息,表明 10/10 个任务已完成。

详细了解如何使用事件或 Pub/Sub 消息触发工作流

清理

如果您为本教程创建了一个新项目,请删除项目。 如果您使用的是现有项目,希望保留此项目且不保留本教程中添加的任何更改,请删除为教程创建的资源

删除项目

为了避免产生费用,最简单的方法是删除您为本教程创建的项目。

要删除项目,请执行以下操作:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

删除教程资源

删除您在本教程中创建的资源:

  1. 删除 Eventarc 触发器:

    gcloud eventarc triggers delete cloud-run-job-workflow-trigger --location=us
  2. 删除工作流:

    gcloud workflows delete cloud-run-job-workflow --location=us-central1
  3. 删除 Cloud Run 作业:

    gcloud run jobs delete parallel-job
  4. 删除为输入数据创建的 Cloud Storage 存储桶:

    gcloud storage rm --recursive gs://input-PROJECT_ID/
  5. 删除 Artifact Registry 代码库:

    gcloud artifacts repositories delete REPOSITORY --location=us-central1

后续步骤