使用 Salesforce Batch Source 插件分析 BigQuery 中的潜在客户数据

了解如何在 Cloud Data Fusion 中使用 Salesforce Batch Source 插件 来分析 BigQuery 中的潜在客户数据。


如需在 Google Cloud 控制台中直接遵循有关此任务的分步指导,请点击操作演示

操作演示


场景

假设某位营销经理要规划一项定位非常精准的电子邮件营销活动来宣传新产品。您在以下国家/地区拥有一份潜在客户列表: Salesforce Sales Cloud。在制作有针对性的广告系列之前, 目标受众群体,不妨使用 Salesforce Batch Source 插件 以提取特定潜在客户数据。

准备工作

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Make sure that billing is enabled for your Google Cloud project.

  6. Enable the Cloud Data Fusion, BigQuery, Cloud Storage, and Dataproc APIs.

    Enable the APIs

  7. 创建 Cloud Data Fusion 实例
  8. 通过为 Cloud Data Fusion 创建 Salesforce 关联的应用,配置与 Salesforce API 的连接。

管理权限

创建并分配所需的自定义角色和权限。

创建自定义角色并添加权限

  1. 在 Google Cloud 控制台中,转到角色页面:

    前往角色

  2. 点击 创建角色

  3. 书名字段中,输入 Custom Role-Tutorial

  4. 点击 添加权限

  5. 添加权限窗口中,选择以下权限,然后点击添加

    • bigquery.datasets.create
    • bigquery.jobs.create
    • storage.buckets.create
  6. 点击创建

为默认的 Compute Engine 服务账号分配自定义角色

  1. 前往 Cloud Data Fusion 实例页面:

    转到实例

  2. 点击您实例的名称。

  3. 记下默认的 Compute Engine 服务账号。实例详情页面包含此信息。

    Cloud Data Fusion 默认 Compute Engine 服务账号名称的格式为 CUSTOMER_PROJECT_NUMBER-compute@developer.gserviceaccount.com

  4. 转到 IAM 页面:

    进入 IAM

  5. Filer 栏中,输入您的默认 Compute Engine 服务账号的名称。

  6. 对于默认的 Compute Engine 服务账号,请点击 修改

  7. 点击 添加其他角色

  8. 请选择一个角色字段中,选择 Custom Role-Tutorial(自定义角色 - 教程)。

  9. 点击保存

配置 Cloud Data Fusion Salesforce Batch Source 插件

  1. 转到 Cloud Data Fusion 实例页面:

    前往“实例”页面

  2. 对于您的实例,请点击查看实例。系统随即会打开 Cloud Data Fusion 网页界面。

  3. 前往 Studio 页面。

  4. 点击 Hub

  5. 在搜索栏中,输入 Salesforce

  6. 点击 Salesforce plugins(Salesforce 插件),然后点击部署

  7. Salesforce 插件部署窗口中,点击完成

    部署完成后,系统会显示一个对话框,其中包含成功消息。

  8. 在该对话框中,点击创建流水线

    此时会显示 Cloud Data Fusion Studio 页面。

  9. 选择 Data pipeline - batch(数据流水线 - 批量)作为数据流水线的类型。

  10. 来源菜单中,点击 Salesforce

  11. 转到 Salesforce 节点,然后点击属性。这会打开 Salesforce 插件属性页面。

  12. Reference name(参考名称)字段中,输入来源的名称。例如 Leads_generated

  13. 连接部分,点击使用连接切换开关。

  14. 点击浏览连接。系统随即会打开 Browse connections(浏览连接)窗口。

  15. 点击添加连接,然后选择 Salesforce

  16. Create a Salesforce connection(创建 Salesforce 连接)窗口中,点击配置标签页,然后执行以下操作:

    1. 名称字段中,输入用于标识连接的名称,例如 Salesforce_connection

    2. 凭据部分中,输入 Salesforce 账号的以下详细信息:

      • 用户名
      • 密码
      • 使用方密钥
      • 使用方密钥
      • 安全令牌
    3. 点击测试连接。 如果输入的详细信息正确无误,测试会成功,并显示“已成功连接”的消息。

    4. 点击创建

    5. 选择 Salesforce_connection 并返回 Salesforce 插件属性页面。

从 Salesforce Batch Source 插件提取数据

  1. 在 Salesforce 插件属性页面的 SOQL query(SOQL 查询)部分,输入以下查询:

    Select LastName,FirstName,Company,Email,Phone,LeadSource,Industry,OwnerId,CreatedDate,LastModifiedDate,LastActivityDate from Lead where Status like '%Open%'
    

    此查询从 sObject Lead 中提取投放广告系列所需的潜在客户的详细信息。

  2. 如需确定对象架构的有效性,请点击获取架构

  3. 如需针对广告系列投放,按特定日期或时间过滤记录,请使用以下字段:

    • 上次修改日期晚于
    • 上次修改时间早于
    • 时长
    • 偏移值
用于提取数据的 SOQL 查询

使用 Wrangler 插件转换数据

使用 Cloud Data Fusion 中的 Wrangler 插件可清理并丰富您的数据:

  1. 返回 Studio 页面。

  2. 转换菜单中,点击 Wrangler

  3. 将 Wrangler 连接到 Salesforce Batch Source 插件。

  4. 前往 Wrangler 插件,然后点击属性。这会打开 Wrangler 插件属性页面。

  5. 确保已填充 Input schema(输入架构)。

  6. 点击 Wrangler

  7. 连接窗格中,选择一个有效的连接。

  8. 选择要转换的 sObject,例如 Lead

  9. 使用所需的指令转换数据:

    keep :LastName,:FirstName,:Company,:Phone,:Email,:LeadSource,:OwnerId,
    :CreatedDate,:LastModifiedDate,:LastActivityDatemerge :FirstName :LastName :Name ' '
    fill-null-or-empty :Email 'no email found'
    mask-number :Phone ########xxxxxxxx
    format-date :LastActivityDate yyyy-MM-dd HH:mm:ss
    drop :LastName,:FirstName
    
    转换数据

将数据加载到 BigQuery 中

  1. 返回 Studio 页面。

  2. 水槽菜单中,点击 BigQuery

  3. 转到 BigQuery 节点,然后点击属性。这会打开 BigQuery 插件属性页面。

  4. 基本部分的 Reference name(参考名称)字段中,输入用于标识此接收器的名称。例如 Leads_generated

  5. 数据集字段中,输入表所属的数据集。例如 Salesforce_Leads

  6. 字段中,输入需要用于存储所提取记录的表。例如 Incoming_Open_Leads

  7. 如需验证插件,请点击验证

加载数据

部署、安排和运行流水线

  1. 如需部署流水线,请点击部署

  2. 如需使用调度器设置适当的刷新时间表,请按以下步骤操作:

    1. 点击计划
    2. 输入以下详细信息:

      • 流水线运行重复
      • 重复频率
      • 起价
      • 最大并发运行数量
      • 计算配置文件
    3. 点击 Save and start schedule(保存并启动时间表)。

    部署并运行流水线

  3. 如需运行流水线,请点击运行

验证数据提取和注入

  1. 在 Google Cloud 控制台中,进入 BigQuery 页面:

    转到 BigQuery

  2. 搜索数据集 Salesforce_Leads 和表名称 Incoming_Open_Leads 以查看提取的记录。

  3. 如需运行查询,请点击查询

分析潜在客户数据,更好地了解您的受众群体并大规模投放量身定制的广告系列。

清理

为避免因本页中使用的资源导致您的 Google Cloud 账号产生费用,请按照以下步骤操作。

删除 Cloud Data Fusion 实例

请按照以下说明删除 Cloud Data Fusion 实例

删除项目

为了避免产生费用,最简单的方法是删除您为本教程创建的项目。

如需删除项目,请执行以下操作:

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

后续步骤