在 Google Cloud 上构建数据湖

以经济实惠而敏捷的方式存储、处理和分析您的所有数据。

云数据湖概览

利用原始数据实现创新

您目前的数据位于何处,您是否在充分利用它?将您的所有结构化或非结构化数据加载到 Google Cloud 中,我们的处理、分析和机器学习工具会将其转变为数据洞见,并推动您的整个企业实现增长。

从数据提取到数据洞见

GCP 数据湖中的数据

轻松迁移到云端

您的数据是采用批处理还是流式处理方式?您是跨网络迁移数据、使用线下转移设备还是捕获实时数据流?无论您的数据当前位于何处以及您需要以何种方式管理迁移,我们都可让您轻松将该数据迁移到 Google Cloud,从而借力 Cloud Storage 实现 99.999999999% 可靠性

存储 PB 级数据

灵活、强大、经济实惠的存储

我们能够将存储功能和计算功能分离开来,从而可让您以增量方式(最小为 1 GB)逐步添加数据,并且只需为实际存储内容付费。多个存储类别意味着您可以节省费用和改善性能,无需任何架构设计。并且,与整个 Google Cloud Platform 的兼容性有助于快速试用新的分析功能和数据,以便为任何使用场景提供支持。

处理数据

按您的方式处理数据

借助 Cloud Storage,您可以按照适合您企业的方式处理数据。使用我们的全托管式 Apache Hadoop 和 Apache Spark 服务 Cloud Dataproc 按需启动集群,并只需按作业运行的时长付费。借助我们的全托管式 Apache Beam 服务 Cloud Dataflow,您可以在无服务器环境中运行流式和批量工作负载,从而免去复杂的预配和管理事务。

无服务器数据仓库

快速信息中心和可视化

想以超快的速度对大量数据执行结构化数据分析吗?借助 BigQuery(Google Cloud 的无服务器 PB 级数据规模数据仓库),您可以在几秒钟内设置仓库,立即开始查询数据,并使用内存中 BigQuery BI Engine 创建即时企业报告和商业智能。

使用机器学习进行高级分析

新的机器学习数据洞见

使用我们与 Cloud AI 原生集成的功能可让您的数据湖利用机器学习的巨大潜能,包括发现隐藏在图片视频中的数据洞见,以及部署大规模机器学习算法。我们简单易用的内置 BigQuery ML 功能让所有人都可以构建和部署模型,从而有助于普及机器学习技术,并支持您公司内的数据驱动型文化。

准备好创建数据湖了吗?

将本地 Hadoop 数据湖工作负载映射到 GCP 产品

Building a cloud data lake on GCPYESNOIm processingstreaming dataWe useApache BeamWe useApache Spark or KafkaCloud DataflowCloud DataprocCloud DataprocIm doinginteractive dataanalysis orad-hoc queryingWe use Apache Sparkwith interactive webnotebooksAre you interested in keepingthese SQL queries as they are?Cloud Dataproc in combinationwith Jupyter or Zeppelinoptional componentsCloud DataprocNo, Im interested inlearning more abouta serverless solution.YESNONo, Im interested inlearning more abouta managed solution.BigQueryWe use SQL with Apache Hive,Apache Drill, Impala,Presto or similarCloud DataprocCloud DataprocIm doing ELT/ETLor batch processingWe use MapReduce,Spark, Pig, or HiveWe use Oozie forworkflow orchestrationCloud ComposerAre you interested inkeeping these workflowjobs as they are?Im supportingNoSQL workloadsWe useApache AccumuloCloud DataprocYESNONeed to use coprocessorsor SQL with Apache Phoenix?Cloud DataprocCloud BigtableWe useApache HBaseIm running anApache Hadoopclusteron-premises

资源