Last reviewed 2023-07-20 UTC
Dataproc は、Apache Hadoop と Spark のジョブを実行するためのスケーラブルなフルマネージド サービスです。Dataproc を使用すると、必要に応じて仮想マシンをカスタマイズし、スケールアップまたはスケールダウンできます。Dataproc は、Cloud Storage、BigQuery、Bigtable、その他の Google Cloud サービスと緊密に連携されています。
ベスト プラクティス
- Dataproc 高可用性モード - インスタンス名、Apache ZooKeeper、Hadoop Distributed File System(HDFS)、Yet Another Resource Negotiator(YARN)について、Hadoop 高可用性モードとデフォルトの非 HA モードを比較します。また、高可用性クラスタの作成方法も説明します。
- クラスタの自動スケーリング - Dataproc 自動スケーリングを使用するタイミング、自動スケーリング ポリシーの作成方法、マルチクラスタ ポリシーの使用方法、自動スケーリング構成に関する信頼性のベスト プラクティス、指標とログ。
- Dataproc の高度な柔軟性モード(EFM) - 高度な柔軟性モードを使用したジョブの進行状況の遅延の最小化の例、パーティショニングや並列処理などの高度な構成、EFM クラスタでの YARN の正常なデコミッション。
- 正常なデコミッション - 正常なデコミッションを使用してクラスタからワーカーを削除した場合の影響を最小限に抑える方法、セカンダリ ワーカーでこの機能を使用する方法、正常なデコミッションのコマンドの例。
- 再実行可能なジョブ- オプションの設定を使用することで、メモリ不足の問題や Compute Engine 仮想マシンの予期しない再起動など、一般的な種類のジョブ失敗を軽減するために障害発生時に再実行するようにジョブを設定できます。