Presto とは

Presto は、Facebook 開発者が作成するオープンソースの分散 SQL クエリエンジンで、大量のデータに対してインタラクティブ分析を実行します。Presto を使用すれば、組織は既存の SQL スキルを使用して、新しい複雑な言語を学習することなくビッグデータに対してクエリを実行できます。

Dataproc の Presto でデータ分析を高速化する方法を学びます。

Presto の定義

オープンソースの Presto(SQL クエリエンジン)は、業界標準の SQL クエリ言語を使用して、オンプレミス システムとクラウドにまたがる複数のソースからビッグデータのアドホック分析を迅速かつ容易に処理して実行する方法を提供します。

Presto アーキテクチャは、分散コンピューティングを使用した従来のオンライン分析処理(OLAP)システムと非常によく似ています。1 つのマスターノードが複数のワーカーノードを調整します。

Presto の用途

Presto を使用すると、BigQuery、Hadoop 分散ファイル システム、Cloud Storage、Cloud SQL for MySQL、Apache Cassandra、Apache Kafka などの大規模なデータ リポジトリに対して、連携クエリを実行できます。具体的なユースケースを以下に示します。

データ ウェアハウジング

Presto では、オープン型の分散 SQL クエリエンジンを使用して、従来の OLAP ワークロードなどのデータベース エンジン クエリを実行できます。

アドホック ビジネス インテリジェンス

データ探索を迅速にしシンプルなレポートを作成するには、小規模な Presto クエリエンジンを作成して、複数のデータソースにクエリを実行し、電源を切ります。

軽量データの準備

データをすばやく結合して集計し、アドホック クエリ用のデータセットと派生変数を準備します。

Dataproc の Presto オプション コンポーネントを使用すると、迅速なクラスタ起動時間と Dataproc の他の部分との統合テストなど、Google Cloud から一連のフルサポートを利用できます。

BigQueryCloud Storage は、Dataproc と Presto クエリエンジン コンポーネントを使用して Google Cloud ソリューションの一部として、データ分析を行うことができます。