将建议导出到 BigQuery

概览

借助 BigQuery Export,您可以查看组织的建议的每日快照。这是通过 BigQuery Data Transfer Service 实现的。如需了解 BigQuery Export 目前包含哪些 Recommender,请参阅此文档

准备工作

为建议创建数据转移作业之前,请完成以下步骤:

  • 授予 BigQuery Data Transfer Service 管理您的数据转移作业的权限。如果您使用 BigQuery 网页界面创建转移作业,则必须在您的浏览器中允许 console.cloud.google.com 显示弹出式窗口以便于查看权限。如需了解详情,请参阅启用 BigQuery Data Transfer Service
  • 创建 BigQuery 数据集来存储数据。
    • 数据转移作业使用创建数据集的区域。创建数据集和转移作业后,该位置将不可变。
    • 该数据集将包含来自全球所有区域的数据分析和建议。因此,在该过程中,此操作会将所有这些数据汇总到一个全球区域。如果存在任何数据驻留问题,请参阅 Google Cloud Customer Care
    • 如果新启动了数据集位置,则初始导出数据的可用性可能会延迟。

价格

所有 Recommender 客户都可以根据 Recommender 价格层级将建议导出到 BigQuery。

所需权限

设置数据转移作业时,您需要在创建数据转移作业的项目级层拥有以下权限:

  • bigquery.transfers.update - 允许您创建转移作业
  • bigquery.datasets.update - 允许您更新目标数据集上的操作
  • resourcemanager.projects.update - 允许您选择要存储导出数据的项目
  • pubsub.topics.list - 允许您选择 Pub/Sub 主题,以接收关于导出的通知

您需要拥有组织级别的以下权限。此组织对应于正在为其设置导出操作的组织。

  • recommender.resources.export - 允许您将建议导出到 BigQuery

如需导出协议价以提供费用节省建议,您需要拥有以下权限:

  • billing.resourceCosts.get at project level - 允许导出协议价以提供项目级建议
  • billing.accounts.getSpendingInformation at billing account level - 允许导出协议价以提供结算账号级建议

如果没有这些权限,系统会以标准价格(而非协议价)导出费用节省建议。

授予权限

您必须在创建数据转移作业的项目中授予以下角色:

    要允许在目标数据集上创建转移作业以及更新操作,您必须授予以下角色:

  • BigQuery Admin 角色 - roles/bigquery.admin
  • 有多个角色包含选择项目以存储导出数据以及选择 Pub/Sub 主题来接收通知的权限。如需获得这些权限,您可以授予以下角色:

  • Project Owner 角色 - roles/owner
  • 有多个角色包含导出协议价以提供项目级费用节省建议所需的权限 billing.resourceCosts.get,授予其中任何一个角色即可:

  • Project Owner 角色 - roles/owner
  • Project Viewer 角色 - roles/viewer
  • Project Editor 角色 - roles/editor
  • 有多个角色包含导出协议价以提供结算账号级费用节省建议所需的权限 billing.accounts.getSpendingInformation,授予其中任何一个角色即可:

  • Billing Account Administrator 角色 - roles/billing.admin
  • Billing Account Costs Manager 角色 - roles/billing.costsManager
  • Billing Account Viewer 角色 - roles/billing.viewer

您必须在组织级层授予以下角色:

  • Google Cloud Console 上的 Recommendations Exporter (roles/recommender.exporter) 角色。

您还可以创建包含所需权限自定义角色。

为建议创建数据转移作业

  1. 登录 Google Cloud 控制台。

    登录 Google Cloud 控制台

  2. 首页屏幕中点击建议标签页。

  3. 点击导出查看 BigQuery Export 表单。

  4. 选择一个目标项目以存储建议数据,然后点击下一步

  5. 点击启用 API,为导出启用 BigQuery API。这可能需要几秒钟的时间才能完成。完成后,点击继续

  6. 配置转移作业表单中,提供以下详细信息:

    • 转移配置名称部分的显示名中,输入转移作业的名称。转移作业名称可以是任何容易辨识的值,让您以后在需要修改时能够轻松识别。

    • 时间表选项部分的时间表中,保留默认值(立即开始)或点击在设置的时间开始 (Start at a set time)。

      • 重复频率部分中,选择转移作业的运行频率选项。

        • 每日一次(默认值)
        • 每周一次
        • 每月一次
        • 自定义
        • 按需
      • 开始日期和运行时间部分,输入开始转移作业的日期和时间。如果您选择的是立即开始,则系统会停用此选项。

    • 目标设置部分的目标数据集中,选择您创建的用来存储数据的数据集 ID。

    • 数据源详细信息部分,执行以下操作:

      • organization_id 的默认值是您当前查看其建议的组织。如果要将建议导出到其他组织,可以在控制台顶部的组织查看器中进行更改。

    • (可选)在通知选项部分,执行以下操作:

      • 点击切换开关以启用电子邮件通知。启用此选项后,转移作业管理员会在转移作业运行失败时收到电子邮件通知。
      • 选择 Pub/Sub 主题部分,选择您的主题名称,或点击创建主题。此选项用于为您的转移作业配置 Pub/Sub 运行通知

  7. 点击创建以创建转移作业。

  8. 在弹出的同意窗口中点击允许

  9. 转移作业创建后,您将被定向回 Recommendation Hub。您可以点击链接以访问转移作业配置详细信息。或者,您也可以通过执行以下操作来访问转移作业:

    • 转到 Google Cloud 控制台中的 BigQuery 页面。

      转到 BigQuery 页面

    • 点击数据传输。您可以查看所有可用的数据转移作业。

查看转移作业的运行历史记录

要查看转移作业的运行历史记录,请执行以下操作:

  1. 转到 Google Cloud 控制台中的 BigQuery 页面。

    转到 BigQuery 页面

  2. 点击数据传输。您可以查看所有可用的数据转移作业。

  3. 点击列表中的相应转移作业。

  4. 运行历史记录标签页下显示的运行转移作业列表中,选择您要查看其详情的转移作业。

  5. 系统会显示您选择的单个运行转移作业的运行详情面板。可能显示的运行详情如下:

    • 由于源数据不可用,转移作业已推迟。
    • 表示导出到表的行数的作业
    • 缺少必须授予的某个数据源的权限,稍后安排回填。

何时导出数据?

创建数据转移作业时,首次导出操作会在两天内进行。首次导出后,导出作业将按照您在设置时指定的频率运行。以下条件适用:

  • 特定日期 (D) 的导出作业会将当天结束时 (D) 的数据导出到 BigQuery 数据集,该作业通常会在次日结束时 (D+1) 完成。导出作业在 PST 时区运行,对于其他时区可能会有延迟。

  • 每日导出作业在要导出的所有数据都可用之后才会运行。 这可能会导致数据集更新的日期和时间发生变化,有时可能会延迟。因此,最好使用最新可用的数据快照,而不是对特定日期表具有硬性时间敏感型依赖。

导出过程中的常见状态消息

了解您可以查看将建议导出到 BigQuery 时的常见状态消息。

用户没有所需的权限

当用户没有所需的权限 recommender.resources.export 时,系统会显示以下消息。您将看到以下消息:

User does not have required permission "recommender.resources.export". Please, obtain the required permissions for the datasource and try again by triggering a backfill for this date

要解决此问题,请将 IAM 角色 roles/recommender.exporter 授予 user/service account,以在设置导出数据的组织级层设置导出。可以通过下面的 gcloud 命令授予该角色:

  • 对于用户:

    gcloud organizations add-iam-policy-binding *<organization_id>* --member='user:*<user_name>*' --role='roles/recommender.exporter'
    
  • 对于服务账号:

    gcloud organizations add-iam-policy-binding *<organization_id>* --member='serviceAccount:*<service_acct_name>*' --role='roles/recommender.exporter'
    

由于源数据不可用,转移作业已推迟

重新安排转移作业时,系统会显示以下消息,因为源数据尚不可用。这不是错误,它表示当天的导出流水线尚未完成。转移作业将在新的计划时间重新运行,并将在导出流水线完成后成功。您将看到以下消息:

Transfer deferred due to source data not being available

找不到源数据

如果 F1toPlacer 流水线完成,但是没有为设置导出的组织找到建议或数据分析,则会出现以下消息。您将看到以下消息:

Source data not found for 'recommendations_export$<date>'insights_export$<date>

出现此消息的原因如下:

  • 用户设置导出的时间少于 2 天。客户指南可让客户知道导出将于一天后生效。
  • 组织在特定日期没有建议或数据分析。这可能是实际情况,或者流水线可能在当天提供所有建议或数据分析之前运行。

查看转移作业的表

将建议导出到 BigQuery 时,数据集包含两个按日期分区的表:

  • recommendations_export
  • insight_export

如需详细了解表和架构,请参阅创建和使用表以及指定架构

如需查看数据转移作业的表,请执行以下操作:

  1. 在 Google Cloud 控制台中转到 BigQuery 页面。 转到 BigQuery 页面

  2. 点击数据传输。您可以查看所有可用的数据转移作业。

  3. 点击列表中的相应转移作业。

  4. 点击配置标签页,然后点击数据集。

  5. 浏览器面板中,展开您的项目并选择数据集。 说明和详细信息会显示在详细信息面板中。数据集的表以及数据集名称会在 Explorer 面板中列出。

安排回填

可以通过安排回填导出过去日期的建议(此日期晚于将组织加入导出的日期)。要安排回填,请执行以下操作:

  1. 转到 Google Cloud 控制台中的 BigQuery 页面。

    转到 BigQuery 页面

  2. 点击数据传输

  3. 转移作业页面上,点击列表中的相应转移作业。

    1. 点击安排回填

    2. 安排回填对话框中,选择开始日期结束日期

如需详细了解如何处理转移作业,请参阅处理转移作业

示例查询

您可以使用以下示例查询来分析导出的数据。

查看建议的节省费用(以天为单位显示建议时长)

SELECT name, recommender, target_resources,
  case primary_impact.cost_projection.cost.units is null
       when true then round(primary_impact.cost_projection.cost.nanos * power(10,-9),2)
       else
       round( primary_impact.cost_projection.cost.units +
       (primary_impact.cost_projection.cost.nanos * power(10,-9)), 2)
   end
   as dollar_amt,
   primary_impact.cost_projection.duration.seconds/(60*60*24) as duration_in_days
FROM `<project>.<dataset>.recommendations_export`
WHERE DATE(_PARTITIONTIME) = "<date>"
and primary_impact.category = "COST"

查看未使用的 IAM 角色的列表

SELECT *
FROM `<project>.<dataset>.recommendations_export`
WHERE DATE(_PARTITIONTIME) = "<date>"
and recommender = "google.iam.policy.Recommender"
and recommender_subtype = "REMOVE_ROLE"

查看必须被更小角色取代的已授予角色的列表

SELECT *
FROM `<project>.<dataset>.recommendations_export`
WHERE DATE(_PARTITIONTIME) = "<date>"
and recommender = "google.iam.policy.Recommender"
and recommender_subtype = "REPLACE_ROLE"

查看建议的数据分析

SELECT recommendations.name as recommendation_name,
insights.name as insight_name,
recommendations.cloud_entity_id,
recommendations.cloud_entity_type,
recommendations.recommender,
recommendations.recommender_subtype,
recommendations.description,
recommendations.target_resources,
recommendations.recommendation_details,
recommendations.state,
recommendations.last_refresh_time as recommendation_last_refresh_time,
insights.insight_type,
insights.insight_subtype,
insights.category,
insights.description,
insights.insight_details,
insights.state,
insights.last_refresh_time as insight_last_refresh_time
FROM `<project>.<dataset>.recommendations_export` as recommendations,
   `<project>.<dataset>.insights_export` as insights
WHERE DATE(recommendations._PARTITIONTIME) = "<date>"
and DATE(insights._PARTITIONTIME) = "<date>"
and insights.name in unnest(recommendations.associated_insights)

查看属于特定文件夹的项目的建议

此查询会返回从项目开始的最多五层父文件夹。

SELECT *
FROM `<project>.<dataset>.recommendations_export`
WHERE DATE(_PARTITIONTIME) = "<date>"
and "<folder_id>" in unnest(ancestors.folder_ids)

查看到目前为止已导出的最新可用日期的建议

DECLARE max_date TIMESTAMP;

SET max_date = (
  SELECT MAX(_PARTITIONTIME) FROM
  `<project>.<dataset>.recommendations_export`
  );

SELECT *
FROM `<project>.<dataset>.recommendations_export`
WHERE _PARTITIONTIME = max_date

使用表格探索 BigQuery 数据

作为在 BigQuery 上执行查询的替代方法,您可以使用新的 BigQuery 数据连接器“关联工作表”从电子表格中访问、分析、直观呈现和共享数十亿行 BigQuery 数据。如需了解详情,请参阅 Google 表格中的 BigQuery 数据使用入门

使用 BigQuery Command Line & REST API 设置导出

  • 获取所需权限

    您可以通过 Google Cloud 控制台或命令行获取所需的 Identity and Access Management 权限。

    例如,如需使用命令行获取服务账号的组织级 recommender.resources.export 权限,请运行以下命令:

    gcloud organizations add-iam-policy-binding *<organization_id>* --member=serviceAccount:*<service_acct_name>*' --role='roles/recommender.exporter'

  • 创建数据集并启用 BigQuery API

  • 在 BigQuery 数据源中注册项目

    Datasource to use: 6063d10f-0000-2c12-a706-f403045e6250

  • 创建导出:

    bq mk \
    --transfer_config \
    --project_id=project_id \
    --target_dataset=dataset_id \
    --display_name=name \
    --params='parameters' \
    --data_source=data_source \
    --service_account_name=service_account_name
    

    其中:

    • project_id 是项目 ID。
    • dataset 是转移作业配置的目标数据集 ID。
    • name 是转移作业配置的显示名。转移作业名称可以是任何容易辨识的值,让您以后在需要修改时能够轻松识别。
    • parameters 包含所创建转移作业配置的参数(采用 JSON 格式),对于建议和数据分析的 BigQuery 导出,您必须提供需要导出建议和数据分析的 organization_id。参数格式:“{"organization_id":"<org id>"}”
    • data_source 是要使用的数据源:“6063d10f-0000-2c12-a706-f403045e6250”
    • service_account_name 是用于对导出进行身份验证的服务账号名称。该服务账号应属于用于创建转移作业的同一 project_id,并且应具有上面列出的所有必要权限
  • 通过界面或 BigQuery 命令行管理现有导出:

  • 注意 - 无论后续有哪些用户对导出配置进行了更新,导出作业都会以设置该账号的用户身份运行。例如,如果导出是使用某个服务账号进行设置的,并且后续某个用户通过 BigQuery Data Transfer Service 界面更新了导出配置,那么导出作业将继续以该服务账号身份运行。在这种情况下,系统会在每次运行导出作业时检查该服务账号的“recommender.resources.export”权限。