Dataproc 是一项托管式 Spark 和 Hadoop 服务,借助该服务,您可以充分利用开源数据工具来执行批处理、查询、流式传输和机器学习。 Dataproc 自动化功能可帮助您快速创建集群并轻松管理,以及在不需要集群时将其关闭以节省费用。由于在管理上花费的时间和费用更少,您可以将精力集中在作业和数据上。
为何使用 Dataproc?
与传统的本地产品和竞争对手的云服务相比,Dataproc 对于拥有三到上百个节点的集群具有许多独特优势:
- 费用低廉 - Dataproc 的价格低廉(低于您使用的其他 Cloud Platform 资源),您每小时只需为集群中的每个虚拟 CPU 支付 1 美分。除了价格低廉之外,Dataproc 集群还可以包含具有较低计算价格的抢占式实例,从而进一步降低您的费用。Dataproc 不会将您的使用量四舍五入为最接近的小时数,而是按照您的真实使用情况逐秒结算,结算周期低至一分钟。
- 超高速 - 在不使用 Dataproc 的情况下,可能需要 5 到 30 分钟才能在本地或通过 IaaS 提供商创建 Spark 和 Hadoop 集群。相比之下,Dataproc 集群可以快速启动、调节和关闭,平均每个操作需要 90 秒或更少的时间。这意味着,您可以花更少的时间来等待集群响应,并投入更多的时间来实际处理数据。
- 集成 — Dataproc 还内置了与其他 Google Cloud Platform 服务(例如 BigQuery、Cloud Storage、Cloud Bigtable、Cloud Logging 和 Cloud Monitoring)的集成,因此,您拥有的不仅仅是一个 Spark 或 Hadoop 集群,而是一个完整的数据平台。例如,您可以使用 Dataproc 轻松将数 TB 的原始日志数据直接 ETL 到 BigQuery 中,以便进行业务报告。
- 托管 - 无需借助管理员或特殊软件提供的帮助,即可使用 Spark 和 Hadoop 集群。您可以通过 Google Cloud 控制台、Cloud SDK 或 Dataproc REST API 轻松地与集群以及 Spark 或 Hadoop 作业进行交互。当您使用完一个集群时,只需将它关闭,这样您就不会为闲置的集群付费。您不必担心数据丢失,因为 Dataproc 已与 Cloud Storage、BigQuery 和 Cloud Bigtable 集成。
- 简单而熟悉 - 您无需学习新的工具或 API 即可使用 Dataproc,因此可以轻松地将现有项目迁移到 Dataproc(无需重新进行开发)。Spark、Hadoop、Pig 和 Hive 会频繁更新,因此您可以更快地提高工作效率。
Dataproc 包含哪些组件?
要查看 Dataproc 支持的开源组件(Hadoop、Spark、Hive 和 Pig)和 Google Cloud Platform 连接器版本的列表,请参阅 Dataproc 版本列表。
Dataproc 使用入门
如需快速开始使用 Dataproc,请参阅 Dataproc 快速入门。您可以通过以下方式访问 Dataproc:
- 通过 REST API
- 使用 Cloud SDK
- 使用 Dataproc 界面
- 通过 Cloud 客户端库