从多个 Microsoft SQL Server 表中读取


本页面介绍如何使用多表 从 Microsoft SQL Server 数据库中读取多个表。如果您希望流水线从多个表读取数据,请使用多表来源。如果您希望流水线从单个表中读取数据,请参阅从 SQL Server 表中读取数据

“多表”来源会输出具有多个架构的数据,并包含一个表名称字段,用于指示数据的来源表。使用“多表”源时,请使用多表接收器BigQuery 多表GCS 多文件之一。

准备工作

  1. 登录您的 Google Cloud 账号。如果您是 Google Cloud 新手,请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金,用于运行、测试和部署工作负载。
  2. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  3. 确保您的 Google Cloud 项目已启用结算功能

  4. 在 Google Cloud Console 中的项目选择器页面上,选择或创建一个 Google Cloud 项目

    转到“项目选择器”

  5. 确保您的 Google Cloud 项目已启用结算功能

  6. 启用 Cloud Data Fusion, Cloud Storage, BigQuery, and Dataproc API。

    启用 API

  7. 创建 Cloud Data Fusion 实例
  8. 确保您的 SQL Server 数据库可以接受来自 Cloud Data Fusion 的连接。为了安全地执行此操作,我们建议您创建一个专用 Cloud Data Fusion 实例

查看您的 Cloud Data Fusion 实例

使用 Cloud Data Fusion 时,您可以同时使用 Google Cloud 控制台和单独的 Cloud Data Fusion 界面。在 Google Cloud 控制台中,您可以创建 Google Cloud 项目,以及创建和删除 Cloud Data Fusion 实例。在 Cloud Data Fusion 界面中,您可以通过各种页面(例如 StudioWrangler)来使用 Cloud Data Fusion 功能。

  1. 在 Google Cloud 控制台中,转到 Cloud Data Fusion 页面。

  2. 如需在 Cloud Data Fusion 网页界面中打开实例,请点击实例,然后点击查看实例

    转到实例

将 SQL Server 密码存储为安全密钥

将 SQL Server 密码添加为安全密钥,以在 Cloud Data Fusion 实例上加密。在本指南的后面部分,您将确保使用 Cloud KMS 检索密码。

  1. 在任意 Cloud Data Fusion 页面的右上角,点击系统管理员

  2. 点击配置标签页。

  3. 点击进行 HTTP 调用

    配置。

  4. 在下拉菜单中,选择 PUT

  5. 在路径字段中,输入 namespaces/NAMESPACE_ID/securekeys/PASSWORD

  6. Body 字段中,输入 {"data":"SQL_SERVER_PASSWORD"}

  7. 点击发送

    密码。

确保您收到的响应是状态代码 200

获取适用于 SQL Server 的 JDBC 驱动程序

使用 Hub

  1. 在 Cloud Data Fusion 界面中,点击 Hub

  2. 在搜索栏中,输入 Microsoft SQL Server JDBC Driver

  3. 点击Microsoft SQL Server JDBC 驱动程序 (Microsoft SQL Server JDBC Driver)。

  4. 点击 Download。按照所示的下载步骤操作。

  5. 点击部署。上传上一步中的 JAR 文件。

  6. 点击完成

使用 Studio

  1. 访问 Microsoft.com

  2. 选择下载的内容,然后点击下载

  3. 在 Cloud Data Fusion 界面中,点击 菜单,然后导航到 Studio 页面。

  4. 点击 添加

  5. 驱动程序下,点击上传

  6. 上传在第 2 步中下载的 JAR 文件。

  7. 点击下一步

  8. 输入名称以配置驱动程序。

  9. Class name 字段中,输入 com.microsoft.sqlserver.jdbc.SQLServerDriver

  10. 点击完成

部署多表插件

  1. 在 Cloud Data Fusion 网页界面中,点击 Hub

  2. 在搜索栏中,输入 Multiple table plugins

  3. 点击多表插件 (Multiple Table Plugins)。

    密码。
  4. 点击部署

  5. 点击 Finish(完成)。

  6. 点击创建流水线 (Create a Pipeline)。

连接到 SQL Server

  1. 在 Cloud Data Fusion 界面中,点击 菜单,然后导航到 Studio 页面。

  2. Studio 中,展开来源菜单。

  3. 点击多个数据库表 (Multiple Database Tables)。

    多个表。
  4. 将指针悬停在多数据库表 (Multiple Database Tables) 节点上,然后点击属性

    属性。
  5. 引用名称字段中,指定将用于标识您的 SQL Server 来源的引用名称。

  6. JDBC 连接字符串字段中,输入 JDBC 连接字符串。例如 jdbc:sqlserver://mydbhost:1433。如需了解详情,请参阅构建连接网址

  7. 输入 JDBC 插件名称数据库用户名数据库用户密码

  8. 点击验证

  9. 点击 Close

连接到 BigQuery 或 Cloud Storage

  1. 在 Cloud Data Fusion 界面中,点击 菜单,然后导航到 Studio 页面。

  2. 展开接收器

  3. 点击 BigQuery 多表GCS 多文件

  4. 使用 BigQuery 多表GCS 多文件连接 Multiple Database Tables 节点。

    连接接收器。
  5. 将指针悬停在 BigQuery Multi TableGCS Multi File 节点上,点击属性,然后配置接收器。

    如需了解详情,请参阅 Google BigQuery 多表接收器Google Cloud Storage 多文件接收器

  6. 点击验证

  7. 点击 Close

运行流水线预览

  1. 在 Cloud Data Fusion 界面中,点击 菜单,然后导航到 Studio 页面。

  2. 点击预览

  3. 点击运行。等待预览成功完成。

部署流水线。

  1. 在 Cloud Data Fusion 界面中,点击 菜单,然后导航到 Studio 页面。

  2. 点击部署

运行流水线

  1. 在 Cloud Data Fusion 界面中,点击 菜单

  2. 点击列表

  3. 点击该流水线。

  4. 在流水线详情页面上,点击运行

后续步骤