Dataproc の概要
クラスタへのアクセス
コンポーネント
-
概要
クラスタ コンポーネントの概要。
-
オプション Anaconda コンポーネント
クラスタに Anaconda コンポーネントをインストールします。
-
オプション Docker コンポーネント
クラスタに Docker コンポーネントをインストールします。
-
オプション Flink コンポーネント
クラスタに Flink コンポーネントをインストールします。
-
HBase オプション コンポーネントベータ版
HBase コンポーネントをクラスタにインストールします。
-
オプション Hive WebHCat コンポーネント
クラスタに Hive WebHCat コンポーネントをインストールします。
-
オプション Hudi コンポーネント
クラスタに Hudi コンポーネントをインストールします。
-
オプション Jupyter コンポーネント
クラスタに Jupyter コンポーネントをインストールします。
-
オプション Presto コンポーネント
クラスタに Presto コンポーネントをインストールします。
-
オプション Ranger コンポーネント
クラスタに Ranger コンポーネントをインストールします。
-
Ranger と Kerberos を組み合わせて使用する
クラスタで Ranger コンポーネントを Kerberos と組み合わせて使用します。
-
Ranger スキーマのバックアップと復元
手順に従って Ranger スキーマをバックアップし、復元します。
-
オプション Solr コンポーネント
クラスタに Solr コンポーネントをインストールします。
-
オプション Trino コンポーネント
クラスタに Trino コンポーネントをインストールします。
-
オプション Zeppelin コンポーネント
クラスタに Zeppelin コンポーネントをインストールします。
-
オプション Zookeeper コンポーネント
クラスタに Zookeeper コンポーネントをインストールします。
コンピューティング オプション
-
サポートされているマシンタイプ
Dataproc では、特別なワークロード用にカスタム マシンタイプを指定できます。
-
GPU クラスタ
Dataproc クラスタでグラフィック プロセッシング ユニット(GPU)を使用します。
-
ローカル ソリッド ステート ドライブ
ローカル SSD を Dataproc クラスタに接続します。
-
最小 CPU プラットフォーム
Dataproc クラスタの最小 CPU プラットフォームを指定します。
-
永続ソリッド ステート ドライブ(PD-SSD)ブートディスク
永続 SSD ブートディスクを使用してクラスタを作成します。
-
セカンダリ ワーカー - プリエンプティブル VM と非プリエンプティブル VM
Dataproc クラスタ内のプリエンプティブルと非プリエンプティブル セカンダリ ワーカーを理解して使用します。
ジョブの構成と実行
-
ジョブのライフサイクル
Dataproc のジョブの抑制について理解します。
-
ジョブの遅延に関するトラブルシューティング
ジョブの遅延の一般的な原因を理解して回避します。
-
永続的履歴サーバー
Dataproc 永続履歴サーバーについて説明します。
-
再実行可能なジョブ
障害発生時に再始動するジョブを作成します。実行時間の長いジョブやストリーミング ジョブに適しています。
-
GKE 上の Dataproc で Spark ジョブを実行
Dataproc on GKE 仮想クラスタを作成して、その仮想クラスタで Spark ジョブを実行します。
-
Docker on YARN で Spark ジョブのランタイム環境をカスタマイズ
Docker イメージを使用して Spark のジョブ環境をカスタマイズします。
-
DataprocFileOutputCommitter を使用して Spark ジョブを実行する
Dataproc のオープンソース
FileOutputCommitter
の構成可能な拡張バージョンを使用して Spark ジョブを実行します。
クラスタの構成
-
クラスタの自動スケーリング
自動スケーリングを使用して、ユーザー ワークロードの需要に応じてクラスタのサイズを自動的に変更する方法を学習します。
-
自動ゾーン プレースメント
Dataproc でクラスタのゾーンを選択します。
-
クラスタ キャッシュ
クラスタ キャッシュを使用してパフォーマンスを改善します。
-
クラスタのメタデータ
Dataproc のクラスタ メタデータと、独自のカスタム メタデータの設定方法について学習します。
-
クラスタ プロパティ
Dataproc オープンソース コンポーネントの構成プロパティを使用します。
-
クラスタのローテーション
クラスタプールの一部であるクラスタをローテーションします。
-
高度な柔軟性モード
中間データの保存場所を変更して、ジョブの実行を継続します。
-
柔軟な VM
リクエストされた VM が利用できない場合に、クラスタで使用できる VM タイプを指定します。
-
高可用性モード
HDFS と YARN の復元力を高めて非可用性を排除します。
-
初期化アクション
設定時にクラスタノードの全部または一部に対して実行するアクションを指定します。
-
ネットワークの構成
クラスタのネットワークを構成します。
-
クラスタのスケーリング
ジョブの実行中でも、クラスタ内のワーカーノードの数を増減します。
-
スケジュール設定された削除
指定した期間の経過後、または指定した時刻にクラスタを削除します。
-
セキュリティの構成
クラスタのセキュリティ機能を有効にします。
-
Confidential Compute
Confidential VM を含むクラスタを作成します。
-
顧客管理暗号鍵(CMEK)
Dataproc クラスタおよびジョブデータの暗号化された鍵を管理します。
-
Ranger Cloud Storage プラグイン
Dataproc で Ranger Cloud Storage プラグインを使用します。
-
Dataproc サービス アカウント
Dataproc サービス アカウントについて理解します。
-
単一ノードクラスタ
ノードが 1 つだけの軽量サンドボックス クラスタを作成します。
-
単一テナントノードのクラスタ
単一テナントノードにクラスタを作成します。
-
ステージング バケットと一時バケット
Dataproc のステージング バケットと一時バケットについて説明します。
コネクタ
-
BigQuery コネクタ
Dataproc クラスタで Apache Hadoop の BigQuery を使用します。
-
BigQuery コネクタのコードサンプル
BigQuery コードのサンプルを表示します。
-
Bigap と Dataproc
Dataproc クラスタで Bigtable の Apache HBase 互換 API を使用します。
-
Cloud Storage コネクタ
Cloud Storage コネクタを使用します。
-
Hive BigQuery コネクタ
Hive BigQuery コネクタについて学習します。
-
Pub/Sub Lite と Dataproc
Dataproc で Pub/Sub Lite を使用します。
Identity and Access Management(IAM)
-
Dataproc の権限と IAM ロール
ユーザーとグループがプロジェクトの Dataproc リソースにアクセスできるように IAM のロールを設定します。
-
Dataproc のプリンシパルと役割
クラスタ上でタスクを作成、管理、実行するために必要な Dataproc プリンシパルとロールを理解します。
-
Dataproc Granular IAM
詳細なクラスタ固有のアクセス許可を設定します。
-
Dataproc 個人用クラスタ認証
個人用クラスタ認証を設定します。
-
Dataproc サービス アカウント ベースのマルチテナンシー
マルチテナント クラスタを設定します。
-
カスタム制約を使用して Dataproc リソースを管理する
Dataproc のリソースを管理するためのカスタム制約を設定します。
Dataproc リージョン エンドポイント
バージョニング
ワークフロー テンプレート
-
概要
ワークフロー テンプレートについて学習します。
-
ワークフローのモニタリングとデバッグ
ワークフローをモニタリングおよびデバッグする方法。
-
パラメータ化
ワークフロー テンプレートをパラメータ化する方法を学習します。
-
YAML ファイルを使用する
ワークフローで YAML ファイルを使用する方法を学習します。
-
クラスタ セレクタを使用する
ワークフローでクラスタ セレクタを使用する方法を学習します。
-
インライン ワークフローを使用する
インライン ワークフローを作成して実行する方法を学習します。
-
ワークフローを使用する
ワークフローを設定し、実行する方法を学習します。
-
ワークフロー スケジューリング ソリューション
Cloud Scheduler、Cloud Functions、Cloud Composer でワークフローを実行します。