Dataproc の Pig オプション コンポーネント

Dataproc クラスタを作成する際には、オプション コンポーネント機能を使用して、Apache Pig などの追加コンポーネントをインストールできます。このページでは、大規模なデータセットを分析するためのオープンソース プラットフォームである Pig コンポーネントについて説明します。

コンポーネントをインストールする

Dataproc クラスタの作成時にコンポーネントをインストールします。

Apache Pig は、Dataproc 2.3 以降のイメージ バージョンのオプション コンポーネントです。

最新の Dataproc イメージ リリースに含まれるコンポーネント バージョンについては、サポートされている Dataproc バージョンをご覧ください。

gcloud

Pig コンポーネントを組み込んだ Dataproc クラスタを作成するには、--optional-components フラグを指定した gcloud dataproc clusters create CLUSTER_NAME コマンドを使用します(イメージ バージョン 2.3 以降を使用)。

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --optional-components=PIG \
    --image-version=2.3 \
    ... other flags

REST API

Dataproc API を使用して Pig コンポーネントを指定するには、clusters.create リクエストの一部として SoftwareConfig.Component を使用します。

コンソール

コンポーネントを有効にします。

  1. Google Cloud コンソールで、Dataproc の [クラスタの作成] ページを開きます。[クラスタの設定] パネルが選択されています。
  2. [コンポーネント] セクションの [オプション コンポーネント] で、クラスタにインストールする Pig や、他のオプション コンポーネントを選択します。