本页面介绍如何使用多表 源从 Microsoft SQL Server 数据库中读取多个表。如果您希望流水线从多个表读取数据,请使用多表来源。如果您希望流水线从单个表中读取数据,请参阅从 SQL Server 表中读取数据。
“多表”来源会输出具有多个架构的数据,并包含一个表名称字段,用于指示数据的来源表。使用“多表”源时,请使用多表接收器、BigQuery 多表或 GCS 多文件之一。
准备工作
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Cloud Data Fusion, Cloud Storage, BigQuery, and Dataproc APIs.
- 创建 Cloud Data Fusion 实例。
- 确保您的 SQL Server 数据库可以接受来自 Cloud Data Fusion 的连接。为了安全地执行此操作,我们建议您创建一个专用 Cloud Data Fusion 实例。
查看您的 Cloud Data Fusion 实例
使用 Cloud Data Fusion 时,您可以同时使用 Google Cloud 控制台和单独的 Cloud Data Fusion 界面。在 Google Cloud 控制台中,您可以创建 Google Cloud 项目,以及创建和删除 Cloud Data Fusion 实例。在 Cloud Data Fusion 界面中,您可以通过各种页面(例如 Studio 或 Wrangler)来使用 Cloud Data Fusion 功能。
在 Google Cloud 控制台中,转到 Cloud Data Fusion 页面。
如需在 Cloud Data Fusion Studio 中打开实例,请点击实例,然后点击查看实例。
将 SQL Server 密码存储为安全密钥
将 SQL Server 密码添加为安全密钥,以在 Cloud Data Fusion 实例上加密。在本指南的后面部分,您将确保使用 Cloud KMS 检索密码。
在任意 Cloud Data Fusion 页面的右上角,点击系统管理员。
点击配置标签页。
点击进行 HTTP 调用。
在下拉菜单中,选择 PUT。
在路径字段中,输入
namespaces/NAMESPACE_ID/securekeys/PASSWORD
。在 Body 字段中,输入
{"data":"SQL_SERVER_PASSWORD"}
。点击发送。
确保您收到的响应是状态代码 200
。
获取适用于 SQL Server 的 JDBC 驱动程序
使用 Hub
在 Cloud Data Fusion 界面中,点击 Hub。
在搜索栏中,输入
Microsoft SQL Server JDBC Driver
。点击Microsoft SQL Server JDBC 驱动程序 (Microsoft SQL Server JDBC Driver)。
点击 Download。按照所示的下载步骤操作。
点击部署。上传上一步中的 JAR 文件。
点击完成。
使用 Studio
访问 Microsoft.com。
选择下载的内容,然后点击下载。
在 Cloud Data Fusion 界面中,点击
菜单,然后导航到 Studio 页面。点击
添加。在驱动程序下,点击上传。
上传在第 2 步中下载的 JAR 文件。
点击下一步。
输入名称以配置驱动程序。
在 Class name 字段中,输入
com.microsoft.sqlserver.jdbc.SQLServerDriver
。点击完成。
部署多表插件
在 Cloud Data Fusion 网页界面中,点击 Hub。
在搜索栏中,输入
Multiple table plugins
。点击多表插件 (Multiple Table Plugins)。
点击部署。
点击 Finish(完成)。
点击创建流水线 (Create a Pipeline)。
连接到 SQL Server
在 Cloud Data Fusion 界面中,点击
菜单,然后导航到 Studio 页面。在 Studio 中,展开来源菜单。
点击多个数据库表 (Multiple Database Tables)。
将指针悬停在多数据库表 (Multiple Database Tables) 节点上,然后点击属性。
在引用名称字段中,指定将用于标识您的 SQL Server 来源的引用名称。
在 JDBC 连接字符串字段中,输入 JDBC 连接字符串。例如
jdbc:sqlserver://mydbhost:1433
。如需了解详情,请参阅构建连接网址。输入 JDBC 插件名称、数据库用户名和数据库用户密码。
点击验证。
点击
Close。
连接到 BigQuery 或 Cloud Storage
在 Cloud Data Fusion 界面中,点击
菜单,然后导航到 Studio 页面。展开接收器。
点击 BigQuery 多表或 GCS 多文件。
使用 BigQuery 多表或 GCS 多文件连接 Multiple Database Tables 节点。
将指针悬停在 BigQuery Multi Table 或 GCS Multi File 节点上,点击属性,然后配置接收器。
如需了解详情,请参阅 Google BigQuery 多表接收器和 Google Cloud Storage 多文件接收器。
点击验证。
点击
Close。
运行流水线预览
在 Cloud Data Fusion 界面中,点击
菜单,然后导航到 Studio 页面。点击预览。
点击运行。等待预览成功完成。
部署流水线。
在 Cloud Data Fusion 界面中,点击
菜单,然后导航到 Studio 页面。点击部署。
运行流水线
在 Cloud Data Fusion 界面中,点击
菜单。点击列表。
点击该流水线。
在流水线详情页面上,点击运行。
后续步骤
- 详细了解 Cloud Data Fusion。
- 按照其中一个教程操作。