Dataproc の Presto オプション コンポーネント

Dataproc クラスタを作成する際には、オプション コンポーネント機能を使用して、追加コンポーネントをインストールできます。このページでは、必要に応じて、Dataproc クラスタに Presto コンポーネントをインストールする方法について説明します。

Presto は、オープンソースの分散 SQL クエリエンジンです。Presto サーバーとウェブ UI は、デフォルトでは、クラスタの最初のマスターノードのポート 8060(Kerberos が有効になっている場合はポート 7778)で使用できます。

デフォルトで、Dataproc 上の Presto は、hivetpchtpcdsbigquerymemoryカタログとそれぞれ連携するように構成されています。

Presto コンポーネントを使用してクラスタを作成した後は、次の方法でクエリを実行できます。

  • gcloud dataproc jobs submit presto コマンドを使用してローカルのターミナルから実行する
  • presto CLI(コマンドライン インターフェース)を使用して、クラスタの最初のマスターノードのターミナルウィンドウから実行する(Dataproc で Presto を使用するをご覧ください)

コンポーネントをインストールする

Dataproc クラスタの作成時にコンポーネントをインストールします。 Dataproc バージョン 1.3 以降で作成されたクラスタには、コンポーネントを追加できます。

Dataproc イメージの各リリースに含まれるコンポーネント バージョンについては、サポートされる Dataproc バージョンをご覧ください。

gcloud コマンド

Presto コンポーネントを含む Dataproc クラスタを作成するには、--optional-components フラグを指定した gcloud dataproc clusters create cluster-name コマンドを使用します。

gcloud dataproc clusters create cluster-name \
    --optional-components=PRESTO \
    --region=region \
    --enable-component-gateway \
    ... other flags

プロパティの構成

gcloud dataproc clusters create コマンドに --properties フラグを追加して、presto、presto-jvm、presto-catalog config のプロパティを設定します。

  • アプリケーション プロパティ: presto: 接頭辞が付いたクラスタ プロパティを使用して、Presto アプリケーション プロパティを構成します(例: --properties:presto:join-distribution-type=AUTOMATIC)。
  • JVM 構成プロパティ: presto-jvm: 接頭辞が付いたクラスタ プロパティを使用して、Presto コーディネーターとワーカー Java プロセスの JVM プロパティを構成します(例: --properties:presto-jvm:XX:+HeapDumpOnOutOfMemoryError)。
  • 新しいカタログを作成してカタログのプロパティを追加する: presto-catalog:catalog-name.property-name を使用して Presto カタログを構成します。

    例: 次の「properties」フラグを「gcloud dataproc clusters create」コマンドで使用すると、「prodhive」Hive カタログを含む Presto クラスタを作成できます。$PRESTO_HOME/etc/catalog/ の下に prodhive.properties ファイルが作成され、prodhive カタログが有効になります。

    --properties="presto-catalog:prodhive.connecter.name=hive,presto-catalog:prodhive.hive.metastore.uri=localhost:9000"

REST API

Dataproc API を使用して Presto コンポーネントを指定するには、clusters.create リクエストの一部として SoftwareConfig.Component を使用します。

Console

    1. コンポーネントとコンポーネント ゲートウェイを有効にします。
      • Cloud Console で、Dataproc の [クラスタの作成] ページを開きます。[クラスターを設定] パネルが選択されています。
      • [
          コンポーネント] セクションで次の設定を行います。
        • [オプション コンポーネント] で、クラスタにインストールする Presto や、他のオプション コンポーネントを選択します。
        • [コンポーネント ゲートウェイ] で [コンポーネント ゲートウェイを有効にする] を選択します(コンポーネント ゲートウェイの URL を表示してアクセスするをご覧ください)。