什么是数据集成?

大数据、物联网 (IoT)、软件即服务 (SaaS)、云活动等导致世界上现有的数据源数量以及数据量呈爆炸性增长。一直以来,这些数据大部分都收集并存储在数据孤岛或独立的数据存储空间中。数据集成是发现、移动和整合多个来源的数据的过程,从而发掘数据洞见并为机器学习和高级分析提供支持。  

在您的企业追求数字化转型策略时,数据集成就显得尤为重要,因为要想改善运营、提高客户满意度并在日益数字化的世界中展开竞争,就需要深入了解您的所有数据。

Google Cloud 的数据集成解决方案是一套松散耦合但紧密集成的服务,包括:

  • Cloud Data Fusion:一项全托管式云原生数据集成服务,可帮助用户高效地构建和管理 ETL/ELT 数据流水线
  • Cloud Composer:基于 Apache Airflow 构建的全托管式工作流编排服务,用于管理和编排端到端数据和流程生命周期
  • Datastream:一种无服务器且易于使用的变更数据捕获和复制服务
  • Dataplex:智能数据结构脉络,用于大规模发现、管理、监控和治理分布式数据
  • Dataflow:一种全托管式流式分析服务,可最大限度地减少延迟、缩短处理时间并降低费用
  • Pub/Sub:一种可伸缩的异步消息传递服务,用于流式分析和数据集成流水线
  • Dataproc:用于批处理、查询、流式传输和机器学习的全托管式 Spark 和 Hadoop 服务

数据集成的定义

数据集成是将不同来源的数据整合在一起以获得统一且更有价值的视图的过程,这使您的企业能够做出更快、更好的决策。  

数据集成可以整合各种数据(结构化、非结构化、批量和流式数据),以完成从库存数据库的基本查询到复杂预测分析的所有工作。

数据集成面临哪些挑战?

使用数据集成平台的难点

难以找到经验丰富的数据专业人员并且价格昂贵,然而部署大多数数据集成平台都需要依赖这类专业人员。需要访问数据来制定业务决策的业务分析师通常依赖于这些专家。集成来自企业来源的数据通常需要 6 个月的时间,这会拖慢数据分析价值的实现时间。

大规模管理数据很困难

组织正努力使高质量的数据易于发现且可用于分析。随着数据源和数据孤岛的增长,组织被迫在跨孤岛移动和复制数据之间进行权衡来实现高级分析,或被迫保持数据的分散,但这会限制敏捷性。

通过多种交付方式集成数据

客户越来越需要在单一平台中实现多种交付方式,例如批量、流式传输和事件。随着越来越多的业务领域创建数字跟踪记录,组织希望利用实时数据集成和分析来推动业务取得更好的成果。 

数据语义问题

可以用不同的方式组织或格式化表示相同内容的多个数据版本。例如,日期可以用数字形式存储为“年/月/日”,也可以用字符形式存储为“X 年 X 月 X 日”。ETL 中的“转换”元素和主数据管理工具可以解决此类问题。

数据集成基础设施的资本支出和运营支出较高

在采购、部署、维护和管理企业级数据集成项目所需的基础设施时,资本和运营费用都会增加。作为一种托管式服务,基于云的数据集成直接解决了此类费用问题。

与应用紧密相关的数据

在以前,数据与特定应用紧密相连并且依赖于这些应用而存在,以至于您无法在企业的其他地方检索和使用数据。如今我们可以看到,应用和数据层已逐渐分离,这样可以更灵活地使用数据。

利用 Google Cloud 解决业务难题

新客户可获得 $300 赠金,用于抵扣 Google Cloud 的费用。
与 Google Cloud 销售专员联系,详细讨论您的独特挑战。

数据集成工具有哪些?

数据集成平台通常包括以下众多工具:

  • 数据注入工具:借助此类工具,您可以获取和导入数据,以便立即使用或储存起来供日后使用
  • ETL 工具:ETL 代表提取、转换和加载,这是最常见的数据集成方法 
  • 数据目录:此类工具可帮助企业找到并盘点分散在多个数据孤岛中的数据资产
  • 数据治理工具:确保数据的可用性、安全性、易用性和完整性的工具
  • 数据清理工具:通过替换、修改或删除来清理脏数据的工具
  • 数据迁移工具:此类工具用于在计算机、存储系统或应用格式之间移动数据
  • 主数据管理工具:帮助企业遵循通用数据定义并实现单一真实来源的工具  
  • 数据连接器:此类工具可以将数据从一个数据库移动到另一个数据库,还可以进行转换

数据集成有哪些用途?

数据集成通常用于以下几个方面:

人工智能 (AI) 和机器学习 (ML)

数据集成可提供支持机器学习模型所需的高质量整合数据,是 AI 和机器学习的基础。 

数据仓储

数据集成将各种来源的数据整合到一个数据仓库中进行分析,以实现业务目的。 

数据湖开发

数据集成可将数据从孤立的本地平台转移到数据湖中,以便通过对数据执行高级分析和 AI 来轻松提取价值。

云迁移和数据库复制

数据集成是确保顺利过渡到云的核心部分。数据传输服务、数据连接器、CDC 工具和 ETL 工具都为组织提供了迁移到云的不同选项,同时可使组织保持业务连续性。  

IoT

数据集成有助于将多个 IoT 来源的数据整合到一个地方,便于您从中获取价值。

实时智能

数据集成功能(如流式传输和事件提取)可激活实时预测和建议等使用场景。  

更进一步

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品,开始在 Google Cloud 上构建项目。

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
控制台