クラスタキャッシュ

Dataproc クラスタキャッシュを有効にすると、クラスタは Spark ジョブによって頻繁にアクセスされる Cloud Storage データをキャッシュに保存します。

利点

パフォーマンスの向上: キャッシュを使用すると、ストレージからデータを取得する時間を短縮して、ジョブのパフォーマンスを改善できます。
ストレージコストの削減: ホットデータがローカルディスクにキャッシュされるため、データを取得するためにストレージに対して行われる API 呼び出しが少なくなります。
Spark ジョブの適用性: クラスタでクラスタキャッシュが有効になっている場合、Dataproc サービスに送信されたか、クラスタで個別に実行されたかに関係なく、クラスタで実行されるすべての Spark ジョブに適用されます。

制限事項と要件

キャッシュは Dataproc Spark ジョブにのみ適用されます。
Cloud Storage のデータのみがキャッシュされます。
キャッシュは、次の要件を満たすクラスタに適用されます。
- クラスタには 1 つのマスターと n 台のワーカーがあります（高可用性（HA）クラスタと単一ノードクラスタはサポートされていません）。
- この機能は、Compute Engine イメージバージョン 2.0.72+、2.1.20+、2.2.0+ の Dataproc で使用できます。
- 各クラスタノードの NVME（Non-Volatile Memory Express）インターフェースにローカル SSD が接続されている必要があります。Persistent Disk（PD）はサポートされていません。データは NVME ローカル SSD のキャッシュにのみ保存されます。
- クラスタでは、認証にデフォルトの VM サービスアカウントが使用されます。カスタム VM サービスアカウントはサポートされていません。

クラスタキャッシュを有効にする

Google Cloud コンソール、Google Cloud CLI または Dataproc API を使用して Dataproc クラスタを作成する場合は、クラスタキャッシュを有効にできます。

Google Cloud コンソール

Google Cloud コンソールで Dataproc の [Compute Engine 上にクラスタを作成する] ページを開きます。
[クラスタの設定] パネルが選択されています。[Spark のパフォーマンスの向上] セクションで、[Enable Google Cloud Storage caching] を選択します。
クラスタ作成パネルでクラスタの詳細を確認、指定したら、[作成] をクリックします。

gcloud CLI

gcloud dataproc clusters create コマンドは、ターミナルウィンドウでローカルに実行するか、dataproc:dataproc.cluster.caching.enabled=true クラスタプロパティを使用して Cloud Shell で実行します。

例:

gcloud dataproc clusters create CLUSTER_NAME \
    --region=REGION \
    --properties dataproc:dataproc.cluster.caching.enabled=true \
    --num-master-local-ssds=2 \
    --master-local-ssd-interface=NVME \
    --num-worker-local-ssds=2 \
    --worker-local-ssd-interface=NVME \
    other args ...

REST API

clusters.create リクエストの一部として "dataproc:dataproc.cluster.caching.enabled": "true" クラスタプロパティを含めるため、SoftwareConfig.properties を設定します。

クラスタ キャッシュ

利点