什么是 Presto?

Presto 是由 Facebook 开发者创建的一种开源分布式 SQL 查询引擎,用于对大量数据运行交互式分析。借助 Presto,组织可以直接使用现有的 SQL 技能查询大数据,而无需学习新的复杂语言。

了解 Dataproc 上的 Dataproc 如何加快数据分析速度。

Presto 的定义

开源 Presto(SQL 查询引擎)使用业界标准 SQL 查询语言,提供了一种快速、简单的方式来处理和执行来自多个来源、跨越内部系统和云端的大数据的临时分析。

Presto 架构与使用分布式计算(1 个主节点协调多个工作器节点)的传统联机分析处理 (OLAP) 系统非常类似。

Presto 有哪些用途?

利用 Presto,组织可以在 BigQuery、Hadoop 分布式文件系统、Cloud Storage、Cloud SQL for MySQL、Apache Cassandra 或 Apache Kafka 等大规模数据存储区中无缝运行联合查询。以下是一些具体的使用场景。

数据仓储

借助 Presto,您可以使用开放、分布式 SQL 查询引擎运行数据库引擎查询,就像传统的 OLAP 工作负载一样。

临时商业智能

为了快速执行数据探索并轻松进行报告,您可以创建一个小型 Presto 查询引擎以运行针对多个数据源的查询,然后关闭电源。

轻量级数据准备

快速联接和汇总数据,为临时查询准备数据集和衍生变量。

Dataproc 的 Presto 可选组件提供了 Google Cloud 的全套支持,包括迅捷的集群启动速度,以及与 Dataproc 其余部分的集成测试。

BigQueryCloud Storage 可以借助 Dataproc 和 Presto 查询引擎组件纳入 Google Cloud 解决方案,供数据分析使用。