此页面由 Cloud Translation API 翻译。

Dataproc 概览

Dataproc 是一项代管式 Spark 和 Hadoop 服务，让您可以充分利用开源数据工具进行批处理、查询、流式传输和机器学习。Dataproc 自动化功能可帮助您快速创建集群并轻松管理，以及在不需要集群时将其关闭以节省费用。由于在管理上花费的时间和费用更少，您可以将精力集中在作业和数据上。

为何使用 Dataproc？

与传统的本地产品和竞争对手的云服务相比，Dataproc 对于拥有三到上百个节点的集群具有许多独特优势：

费用低廉 - Dataproc 的价格低廉（低于您使用的其他 Cloud Platform 资源），您每小时只需为集群中的每个虚拟 CPU 支付 1 美分。除了价格低廉之外，Dataproc 集群还可以包含具有较低计算价格的抢占式实例，从而进一步降低您的费用。Dataproc 不会将您的使用量四舍五入为最接近的小时数，而是按照您的真实使用情况逐秒结算，结算周期低至一分钟。
超高速 - 在不使用 Dataproc 的情况下，可能需要 5 到 30 分钟才能在本地或通过 IaaS 提供商创建 Spark 和 Hadoop 集群。相比之下，Dataproc 集群可以快速启动、调节和关闭，平均每个操作需要 90 秒或更少的时间。这意味着，您可以花更少的时间来等待集群响应，并投入更多的时间来实际处理数据。
集成 — Dataproc 还内置了与其他 Google Cloud Platform 服务（例如 BigQuery、Cloud Storage、Cloud Bigtable、Cloud Logging 和 Cloud Monitoring）的集成，因此，您拥有的不仅仅是一个 Spark 或 Hadoop 集群，而是一个完整的数据平台。例如，您可以使用 Dataproc 轻松将数 TB 的原始日志数据直接 ETL 到 BigQuery 中，以便进行业务报告。
托管 - 无需借助管理员或特殊软件提供的帮助，即可使用 Spark 和 Hadoop 集群。您可以通过 Google Cloud 控制台、Cloud SDK 或 Dataproc REST API 轻松与集群以及 Spark 或 Hadoop 作业进行交互。当您使用完一个集群时，只需将它关闭，这样您就不会为闲置的集群付费。您不必担心数据丢失，因为 Dataproc 已与 Cloud Storage、BigQuery 和 Cloud Bigtable 集成。
简单而熟悉 - 您无需学习新的工具或 API 即可使用 Dataproc，因此可以轻松地将现有项目迁移到 Dataproc（无需重新进行开发）。Spark、Hadoop、Pig 和 Hive 会频繁更新，因此您可以更快地提高工作效率。

Dataproc 包含哪些组件？

要查看 Dataproc 支持的开源组件（Hadoop、Spark、Hive 和 Pig）和 Google Cloud Platform 连接器版本的列表，请参阅 Dataproc 版本列表。

Dataproc 使用入门

要快速开始使用 Dataproc，请参阅 Dataproc 快速入门。您可以通过以下方式访问 Dataproc：

通过 REST API
使用 Cloud SDK
使用 Dataproc 界面
通过 Cloud 客户端库