在 Google Cloud Platform 上构建数据湖

以经济实惠而敏捷的方式存储、处理和分析海量数据。

云数据湖概览

用于捕获和使用您所有数据的平台

摆脱费用高昂的本地存储模式,将您的数据以其原始状态(结构化或非结构化)存放到 Google Cloud Platform 中,并与计算资源分开存储。这样,您不必再为数据预处理而烦心,也无需不断尝试设计不同架构来处理新的数据类型。您可以利用 Google Cloud Platform 先进的处理、分析和机器学习服务,在您的公司内部实现有影响力的用例。您可以利用 Google 用来保护身份信息、应用和设备的同一基础架构,它原生安全的特性可确保您的数据安全无虞。

从数据提取到数据洞见

GCP 数据湖中的数据

将数据迁移到您的 GCP 数据湖中

Google Cloud Platform 可通过批量传输和流式传输轻松将数据从任何位置迁入云端。无论您是跨网络迁移数据、使用离线转移设备,还是捕获实时数据流,都可以灵活选择 GCP 的产品和服务规模来满足您的需求,而又不会增加复杂性。

存储 PB 级数据

存储 PB 级数据

使用 Cloud Storage 作为您的数据湖的中央管理平台,获享其高度一致性、高耐用性设计(可提供 99.999999999% 的耐用性)以及静态存储数据的能力(不受传统本地模型等计算资源的约束)带来的诸多益处。此外,Google Cloud Storage 提供多个存储类别,因而您可以选择兼顾使用费用和可用性的最优方案,创建经济实惠的 PB 级数据湖。最重要的是,Google Cloud Storage 中存储的数据可供其他各种 Google Cloud Platform 产品轻松访问,因而成为各种使用场景下存储各种数据资产的理想之选。

处理数据

以您想要的方式处理数据

将数据湖移入 Cloud Storage 后,您可以选择以适合您公司的方式处理数据。您可以通过使用 GCP 的全托管式 Hadoop 和 Spark 服务 Cloud Dataproc,利用组织中的现有 Hadoop 经验来按需启动集群,并仅按作业运行的时长付费。此外,您还可以探索 GCP 的全托管式 Apache Beam 服务 Cloud Dataflow,在无服务器数据处理环境中处理数据流和批量处理工作负载,从而免去复杂的预配和管理事务。

无服务器数据仓库

通过无服务器数据仓库对您的数据湖进行分析

BigQuery 是 GCP 的 PB 级无服务器数据仓库,您可以用它对存储在数据湖中的结构化数据执行分析。您能够以超快的速度针对大量数据执行查询,为企业报告和商业智能需求提供支持。此外,您还能利用可通过熟悉的 SQL 语法使用的内置机器学习功能,帮助在公司内部营造数据驱动型文化氛围。

使用机器学习进行高级分析

使用机器学习进行高级分析

您可以运用 GCP 中的数据湖开展数据科学实验,并基于存储在 Cloud Storage 中的数据资产创建机器学习模型。此外,您还可使用与 Google 先进的 Cloud AI 产品原生集成的功能执行各种操作,包括从图片视频资产中挖掘数据洞见,以及通过 Cloud Machine Learning Engine 自定义、部署和扩缩您自己的定制机器学习模型。

将本地 Hadoop 数据湖工作负载映射到 GCP 产品

在 GCP 上构建云数据湖我处理流式数据我们使用Apache Beam我们使用Apache Spark KafkaCloud DataflowCloud DataprocCloud Dataproc我执行互动式数据分析或临时查询我们搭配使用 Apache Spark 与互动式网络笔记本您想将这些 SQL 查询保持原样吗?Cloud Dataproc 结合 Jupyter Zeppelin可选组件Cloud Dataproc不,我想详细了解无服务器解决方案。不,我想详细了解托管式解决方案。BigQuery我们搭配使用 SQL 与 Apache Hive、Apache Drill、Impala、Presto 或类似产品Cloud DataprocCloud Dataproc我执行 ELT/ETL批量处理我们使用 MapReduce、Spark、Pig Hive我们使用 Oozie 处理工作流编排Cloud Composer您想将这些工作流作业保持原样吗?我负责支持NoSQL 工作负载我们使用 Apache AccumuloCloud Dataproc需要搭配使用协处理器或 SQL 与 Apache Phoenix?Cloud DataprocCloud Bigtable 我们使用 Apache HBase我在本地运行 Apache Hadoop 集群

资源

Google Cloud Platform 上的数据湖架构

挖掘和填充数据湖 (Cloud Next' 18)

有关使用 Cloud Dataproc 构建长时间运行的集群的 10 点提示

构建营销数据仓库

将本地 Hadoop 基础架构迁移到 Google Cloud Platform