本番環境での Dataproc のベストプラクティス

このドキュメントでは、本番環境の Dataproc クラスタで信頼性が高く、効率的で、分析情報を提供するデータ処理ジョブを実行するために役立つ Dataproc のベストプラクティスについて説明します。

クラスタイメージのバージョンを指定する

Dataproc は、イメージバージョンを使用して、オペレーティングシステム、ビッグデータコンポーネント、 Google Cloud コネクタを、クラスタにデプロイされるパッケージにバンドルします。クラスタの作成時にイメージバージョンを指定しない場合は、デフォルトで最新の安定版イメージバージョンが使用されます。

次の gcloud CLI コマンドに示すように、本番環境ではクラスタを特定の major.minor Dataproc イメージバージョンに関連付けます。

gcloud dataproc clusters create CLUSTER_NAME \
    --region=region \
    --image-version=2.0

Dataproc は、major.minor バージョンを最新のサブマイナーバージョンに解決します（2.0 は 2.0.x に解決されます）。注: クラスタに対して特定のサブマイナーバージョンを使用する必要がある場合は、それを指定できます（例: --image-version=2.0.x）。詳細については、バージョニングの仕組みをご覧ください。

Dataproc プレビューイメージバージョン

Dataproc イメージの新しいマイナーバージョンは、標準のマイナーイメージバージョントラックでリリースされる前に preview バージョンで利用できます。本番環境で標準のマイナーイメージバージョンを導入する前に、プレビューイメージを使用して、新しいマイナーイメージバージョンに対してジョブをテストして検証します。詳細については、Dataproc のバージョニングをご覧ください。

必要に応じてカスタムイメージを使用する

ネイティブ Python ライブラリや、セキュリティ強化ソフトウェアやウイルス対策ソフトウェアなど、クラスタに追加する依存関係がある場合は、ターゲットのマイナーイメージバーショントラックに、最新のイメージからカスタムイメージを作成します。この方法では、カスタムイメージを使用してクラスタを作成するときに依存関係の要件を満たすことが可能です。カスタムイメージを再ビルドして依存関係の要件を更新する場合は、マイナーイメージトラック内で利用可能な最新のサブマイナーイメージバージョンを使用します。

Dataproc サービスにジョブを送信する

gcloud CLI または Google Cloud コンソールを使用して jobs.submit 呼び出しで Dataproc サービスにジョブを送信します。Dataproc のロールを付与して、ジョブとクラスタの権限を設定します。カスタムロールを使用して、クラスタアクセスとジョブ送信権限を分離します。

Dataproc サービスにジョブを送信するメリットは次のとおりです。

複雑なネットワーク設定が不要 - API に幅広くアクセス可能
IAM の権限とロールを簡単に管理する
ジョブのステータスを簡単に追跡 - 結果を複雑なものにするための Dataproc ジョブのメタデータはありません。

本番環境では、固定されたマイナーイメージバージョン（--image-version=2.0 など）でクラスタレベルの依存関係にのみ依存するジョブを実行します。ジョブを送信するときに、依存関係をジョブとバンドルします。Spark または MapReduce に uber jar を送信するのが一般的な方法です。

例: ジョブ jar が args4j と spark-sql に依存し、args4j がジョブに固有のものであり、spark-sql がクラスタレベルの依存関係である場合、ジョブの uber jar に args4j をバンドルします。

初期化アクションのロケーションを制御する

初期化アクションにより、Dataproc クラスタの作成時にスクリプトを自動的に実行したり、コンポーネントをインストールしたりできます（dataproc-initialization-actions 一般的な Dataproc 初期化アクションに関する GitHub リポジトリをご覧ください）。本番環境でクラスタ初期化アクションを使用する場合は、公開リポジトリから取得するのではなく、初期化スクリプトを Cloud Storage にコピーします。これにより、他のユーザーによる変更の対象となる初期化スクリプトを実行する必要がなくなります。

Dataproc リリースノートをモニタリングする

Dataproc は、新しいサブマイナーイメージバージョンを定期的にリリースしています。Dataproc リリースノートを確認する、あるいは購読して、Dataproc イメージバージョンの最新のリリース、その他のお知らせ、変更、修正を確認してください。

ステージングバケットを確認して障害を調査する

クラスタのステージングバケットを調べて、クラスタとジョブのエラーメッセージを調べます。通常、ステージングバケットの Cloud Storage の場所はエラーメッセージに表示されます。次のエラーメッセージの例の太字のテキストをご覧ください。
```
ERROR:
(gcloud.dataproc.clusters.create) Operation ... failed:
...
- Initialization action failed. Failed action ... see output in:
gs://dataproc-<BUCKETID>-us-central1/google-cloud-dataproc-metainfo/CLUSTERID/<CLUSTER_ID>\dataproc-initialization-script-0_output
 
```

gcloud CLI を使用して、ステージングバケットの内容を表示します。

gcloud storage cat gs://STAGING_BUCKET

出力例:

+ readonly RANGER_VERSION=1.2.0
... Ranger admin password not set. Please use metadata flag - default-password

サポートを受ける

Google Cloud は、本番環境の OSS ワークロードをサポートし、さまざまなレベルのサポートを通じてビジネス SLA を満たすのに役立ちます。また、 Google Cloudコンサルティングサービスでは、チームの本番環境デプロイについてのベストプラクティスに関するガイダンスを提供できます。

追加情報

Google Cloud ブログの Dataproc ベストプラクティスガイドを読む。
YouTube で Democratizing Dataproc を視聴する。

本番環境での Dataproc のベスト プラクティス コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

クラスタ イメージのバージョンを指定する

Dataproc プレビュー イメージ バージョン

必要に応じてカスタム イメージを使用する