本页简要介绍了大型机连接器、其功能和主要优势。
IBM 大型机可供组织执行关键计算任务。近年来,许多依赖大型机的公司一直在努力迁移到云端。借助大型主机连接器,您可以将大型主机数据迁移到Google Cloud ,以便将 CPU 密集型报告工作负载分流到 Google Cloud。
Mainframe Connector 的主要优势
使用 Mainframe Connector 将大型主机数据迁移到 Google Cloud具有以下主要优势:
- 简化数据传输:简化将大型主机数据移至Google Cloud 存储服务(例如 Cloud Storage 和 BigQuery)。
- 批量作业集成:让您可以使用作业控制语言 (JCL) 中定义的主机批量作业提交 BigQuery 作业。由于查询是从数据集或文件中读取的,因此分析师无需具备太多大型机环境知识和理解即可使用定期作业。
- 易于监控:由于作业是使用 JCL 按照熟悉的时间表提交的,因此大型机操作人员无需监控其他环境。
- 降低 MIPS:Mainframe Connector 使用 Java 虚拟机 (JVM) 进行大多数处理,以最大限度地减少数据传输期间大型机处理器的工作负载,从而降低每秒百万条指令 (MIPS) 数,进而降低费用。Mainframe Connector 会将大多数需要大量处理器资源的工作分流到辅助处理器。如果辅助处理器处于繁忙状态,您还可以配置 Mainframe Connector 以使用 Compute Engine 执行转码和转换。如需详细了解大型机连接器配置,请参阅大型机连接器配置。
流式转换:将与扩展二进制编码十进制交换代码 (EBCDIC) 中的 COBOL 副本库关联的队列式顺序访问方法 (QSAM) 大型机数据集或 ASCII UTF-8 格式的文件转码为与 Google Cloud 服务(例如 BigQuery)兼容的 ORC 格式。默认情况下,大型机连接器会将数据集从 US EBCDIC: Cp037 字符集转码为 ORC。不过,Mainframe Connector 还支持对以下区域性 EBCDIC 字符集的数据集进行转码:
- 法语:Cp297
- 德语:Cp1141
- 西班牙语:Cp1145
如果 IBM JVM 中未包含合适的字符集,则可以实现自定义字符集。
Mainframe Connector 的运作方式
借助 Mainframe Connector,您可以将大型主机上的数据移入和移出 Cloud Storage,以及通过 JCL 中定义的基于大型主机的批处理作业提交 BigQuery 作业。借助 Mainframe Connector,您可以将大型机数据集直接转码为 Optimized Row Columnar (ORC) 格式。
转码是指将信息从一种编码表示形式转换为另一种编码表示形式的过程,在本例中,转换为 ORC。ORC 是一种开源列式数据格式,广泛应用于 Apache Hadoop 生态系统,并且受 BigQuery 支持。
主机连接器提供了 Google Cloud SDK 命令行实用程序的一部分,可让您传输数据并与 Google Cloud 服务进行交互。借助 gsutil 和 bq 命令行实用程序的 Shell 解释器和基于 JVM 的实现,您可以完全从 IBM z/OS 管理完整的提取、加载、转换 (ELT) 流水线,同时保留现有作业调度程序。
在云端和大型主机之间传输数据的主要挑战之一是,该过程涉及多个步骤,通常包括执行以下步骤:
- 将数据复制到文件服务器。
- 将数据从文件服务器复制到其他位置进行处理。
- 使用数据处理堆栈将数据转换为现代格式。
- 将处理后的数据写回另一个位置。
- 将处理后的数据加载到数据库或数据仓库,以便查询或使用数据。
下图显示了通常用于将数据从大型机转移到 Google Cloud的多步流程。
借助 Mainframe Connector,您可以使用 Cloud Storage 作为中间存储位置,通过单个命令执行所有这些步骤。这样可以缩短处理大型机数据并将其提供给数据库或数据仓库所需的时间,如下图所示。