Cloud Data Fusion の Dataproc プロビジョナーは、Dataproc API を呼び出して、Google Cloud プロジェクト内のクラスタを作成および削除します。クラスタはプロビジョナーの設定で構成できます。
Cloud Data Fusion バージョンと Dataproc バージョンの互換性について詳しくは、バージョンの互換性をご覧ください。
プロパティ
プロパティ | 説明 |
---|---|
プロジェクト ID | Dataproc クラスタが作成される Google Cloud プロジェクト。プロジェクトで Dataproc API が有効になっている必要があります。 |
クリエイターのサービス アカウント キー | プロビジョナーに付与されるサービス アカウント キーには、Dataproc API と Compute Engine API にアクセスする権限が必要です。アカウント キーは機密情報であるため、Secure Storage を使用してアカウント キーを付与することをおすすめします。 安全なキーを作成したら、名前空間またはシステム コンピューティング プロファイルに追加できます。名前空間コンピューティング プロファイルの場合は、 シールドをクリックして、安全なキーを選択します。システムのコンピューティング プロファイルの場合は、[Secure Account Key] フィールドにキーの名前を入力します。 |
リージョン | Dataproc クラスタのコンピューティング ノードなど、リソースをホストできる地理的なロケーション。 |
ゾーン | リージョン内の分離されたデプロイエリア。 |
ネットワーク | Dataproc クラスタの作成時に使用される、Google Cloud プロジェクト内の VPC ネットワーク。 |
ネットワーク ホストのプロジェクト ID | ネットワークが別の Google Cloud プロジェクトにある場合は、そのプロジェクトの ID を入力します。共有 VPC の場合は、ネットワークが存在するホスト プロジェクトの ID を入力します。 |
サブネット | クラスタの作成時に使用するサブネット。指定したネットワーク内にあり、ゾーンが存在するリージョンに存在する必要があります。空白のままにすると、ネットワークとゾーンに基づいてサブネットが選択されます。 |
ランナーのサービス アカウント | プログラムの実行に使用される Dataproc 仮想マシン(VM)のサービス アカウント名。空白のままにすると、デフォルトの Compute Engine サービス アカウントが使用されます。 |
マスターの数 | クラスタ内のマスターノードの数。これらのノードには、YARN Resource Manager、HDFS NameNode、すべてのドライバが含まれます。1 または 3 に設定する必要があります。 デフォルトは 1 です。 |
マスター マシンタイプ | 使用するマスターマシンのタイプ。次のいずれかのマシンタイプを選択します。
Cloud Data Fusion バージョン 6.7.2 以降では、デフォルトは e2 です。 バージョン 6.7.1 では、デフォルトは n2 です。 バージョン 6.7.0 以前では、デフォルトは n1 です。 |
マスターコア | マスターノードに割り当てられる仮想コアの数。 デフォルトは 2 です。 |
マスターメモリ(GB) | マスターノードに割り当てられるメモリ量(ギガバイト単位)。 デフォルトは 8 GB です。 |
マスター ディスクサイズ(GB) | マスターノードに割り当てられるディスクサイズ(ギガバイト単位)。 デフォルトは 1,000 GB です。 |
マスター ディスクのタイプ | マスターノードのブートディスクのタイプ:
デフォルトは標準永続ディスクです。 |
ワーカーのマシンタイプ | 使用するワーカーマシンのタイプ。次のいずれかのマシンタイプを選択します。
Cloud Data Fusion バージョン 6.7.2 以降では、デフォルトは e2 です。 バージョン 6.7.1 では、デフォルトは n2 です。 バージョン 6.7.0 以前では、デフォルトは n1 です。 |
ワーカーコア | ワーカーノードに割り当てられる仮想コアの数。 デフォルトは 2 です。 |
ワーカーのメモリ(GB) | ワーカーノードに割り当てられるメモリ容量(ギガバイト単位)。 デフォルトは 8 GB です。 |
ワーカーのディスクサイズ(GB) | ワーカーノードに割り当てられるディスクサイズ(ギガバイト単位)。 デフォルトは 1,000 GB です。 |
ワーカーのディスクタイプ | ワーカーノードのブートディスクのタイプ:
デフォルトは標準永続ディスクです。 |
事前定義された自動スケーリングを使用する | 事前定義された Dataproc 自動スケーリングを使用できます。 |
プライマリ ワーカーの数 | ワーカーノードには、YARN NodeManager と HDFS DataNode が含まれます。 デフォルトは 2 です。 |
セカンダリ ワーカーの数 | セカンダリ ワーカーノードには YARN NodeManager が含まれますが、HDFS DataNode は含まれません。通常、自動スケーリング ポリシーでより大きい値が要求されない限り、0 に設定されます。 |
自動スケーリング ポリシー | 自動スケーリング ポリシー ID またはリソース URI のパス。 Dataproc 自動スケーリングを構成して使用し、ワークロードの需要を満たすように、クラスタを自動的かつ動的にサイズ変更する場合の詳細については、自動スケーリングを使用する場合と Dataproc クラスタを自動スケーリングするをご覧ください。 |
メタデータ | クラスタ内で実行されるインスタンス用の追加のメタデータ。通常は、請求とチャージバックの追跡に使用できます。詳細については、クラスタ メタデータをご覧ください。 |
ネットワーク タグ | ネットワーク タグを割り当てて、クラスタの特定のノードにファイアウォール ルールを適用します。ネットワーク タグは英小文字で始まる必要があり、英小文字、数字、ハイフンを使用できます。タグの末尾は英小文字または数字にする必要があります。 |
セキュアブートを有効にする | Dataproc VM でセキュアブートを有効にします。 デフォルトは False です。 |
vTPM を有効にする | Dataproc VM で仮想トラステッド プラットフォーム モジュール(vTPM)を有効にします。 デフォルトは False です。 |
整合性モニタリングを有効にする | Dataproc VM で仮想整合性モニタリングを有効にします。 デフォルトは False です。 |
イメージのバージョン | Dataproc イメージ バージョン。空白のままにすると、1 つが自動的に選択されます。[カスタム イメージ URI] プロパティを空白のままにすると、このプロパティは無視されます。 |
カスタム イメージの URI | Dataproc イメージの URI。空白のままにすると、[イメージ バージョン] プロパティから推測されます。 |
ステージング バケット | Dataproc でパイプラインを実行するためのジョブの依存関係と構成ファイルをステージングするために使用される Cloud Storage バケット。 |
一時バケット | Dataproc の Spark 履歴ファイルなど、エフェメラル クラスタとジョブデータを格納するために使用される Cloud Storage バケット。 このプロパティは、Cloud Data Fusion バージョン 6.9.2 で導入されました。 |
暗号鍵の名前 | Dataproc で使用される顧客管理の暗号鍵(CMEK)。 |
OAuth スコープ | 必要なアクセスレベルに応じて、Google API へのアクセスにリクエストが必要になる OAuth 2.0 スコープ。Google Cloud Platform スコープは常に含まれます。 このプロパティは、Cloud Data Fusion バージョン 6.9.2 で導入されました。 |
初期化アクション | クラスタの初期化中に実行するスクリプトのリストです。 初期化アクションは Cloud Storage に配置する必要があります。 |
クラスタ プロパティ | Hadoop サービスのデフォルトの構成プロパティをオーバーライドするクラスタ プロパティ。該当する Key-Value ペアの詳細については、クラスタ プロパティをご覧ください。 |
一般的なラベル | 作成される Dataproc クラスタとジョブを整理するためのラベル。 各リソースにラベルを付け、ラベルでリソースをフィルタできます。ラベルに関する情報は課金システムに転送されるため、お客様はラベルを基準に請求料金を分析することもできます。 |
最大アイドル時間 | 指定した分数を超える時間アイドル状態になったクラスタを削除するように Dataproc を構成します。通常、クラスタは実行の終了直後に削除されますが、まれに削除に失敗することがあります。詳細については、クラスタの削除のトラブルシューティングをご覧ください。 デフォルトは 30 分です。 |
クラスタの削除をスキップする | 実行の終了時にクラスタの削除をスキップするかどうか。クラスタは手動で削除する必要があります。これは、失敗した実行のデバッグにのみ使用してください。 デフォルトは False です。 |
Stackdriver Logging の統合を有効にする | Stackdriver Logging の統合を有効にします。 デフォルトは True です。 |
Stackdriver Monitoring の統合を有効にする | Stackdriver Monitoring の統合を有効にします。 デフォルトは True です。 |
コンポーネント ゲートウェイを有効にする | コンポーネント ゲートウェイを有効にして、クラスタのインターフェース(YARN ResourceManager や Spark HistoryServer など)にアクセスできるようにします。 デフォルトは False です。 |
外部 IP を優先する | システムがクラスタと同じネットワークに存在する Google Cloud で実行されている場合、通常はクラスタとの通信に内部 IP アドレスを使用します。外部 IP アドレスを常に使用するには、この値を True に設定します。 デフォルトは False です。 |
ポーリングの遅延を作成する | クラスタの作成後、ポーリングを開始してクラスタが作成されたかどうかを確認するまでの待機秒数。 デフォルトは 60 秒です。 ポーリング設定では、クラスタの作成と削除時にクラスタのステータスをポーリングする頻度を制御します。多くのパイプラインを同時に実行するようにスケジュールされている場合は、これらの設定を変更することをおすすめします。 |
ポーリングのジッターを作成する | クラスタの作成時に遅延に追加するランダムなジッターの最大量(秒単位)。このプロパティを使用すると、厳密に同一の時刻に実行されるパイプラインが多数ある場合に、Google Cloud で多くの API 呼び出しが同時に行われるのを回避できます。 デフォルトは 20 秒です。 |
ポーリングの遅延を削除する | クラスタを削除した後、ポーリングを開始してクラスタが削除されたかどうかを確認するまでの待機秒数。 デフォルトは 30 秒です。 |
ポーリング間隔 | クラスタのステータスのポーリング間隔の秒数。 デフォルトは 2 です。 |
JSON プロパティにマッピングされた Dataproc プロファイルのウェブ インターフェース プロパティ
Dataproc プロファイル UI プロパティ名 | Dataproc プロファイルの JSON プロパティ名 |
---|---|
プロファイル ラベル | name |
プロフィール名 | label |
説明 | description |
プロジェクト ID | projectId |
クリエイターのサービス アカウント キー | accountKey |
リージョン | region |
ゾーン | zone |
ネットワーク | network |
ネットワーク ホストのプロジェクト ID | networkHostProjectId |
サブネット | subnet |
ランナーのサービス アカウント | serviceAccount |
マスターの数 | masterNumNodes |
マスター マシンタイプ | masterMachineType |
マスターコア | masterCPUs |
マスターメモリ(GB) | masterMemoryMB |
マスター ディスクサイズ(GB) | masterDiskGB |
マスター ディスクのタイプ | masterDiskType |
プライマリ ワーカーの数 | workerNumNodes |
セカンダリ ワーカーの数 | secondaryWorkerNumNodes |
ワーカーのマシンタイプ | workerMachineType |
ワーカーコア | workerCPUs |
ワーカーのメモリ(GB) | workerMemoryMB |
ワーカーのディスクサイズ(GB) | workerDiskGB |
ワーカーのディスクタイプ | workerDiskType |
メタデータ | clusterMetaData |
ネットワーク タグ | networkTags |
セキュアブートを有効にする | secureBootEnabled |
vTPM を有効にする | vTpmEnabled |
整合性モニタリングを有効にする | integrityMonitoringEnabled |
イメージのバージョン | imageVersion |
カスタム イメージの URI | customImageUri |
Cloud Storage バケット | gcsBucket |
暗号鍵の名前 | encryptionKeyName |
自動スケーリング ポリシー | autoScalingPolicy |
初期化アクション | initActions |
クラスタ プロパティ | clusterProperties |
ラベル | clusterLabels |
最大アイドル時間 | idleTTL |
クラスタの削除をスキップする | skipDelete |
Stackdriver Logging の統合を有効にする | stackdriverLoggingEnabled |
Stackdriver Monitoring の統合を有効にする | stackdriverMonitoringEnabled |
コンポーネント ゲートウェイを有効にする | componentGatewayEnabled |
外部 IP を優先する | preferExternalIP |
ポーリングの遅延を作成する | pollCreateDelay |
ポーリングのジッターを作成する | pollCreateJitter |
ポーリングの遅延を削除する | pollDeleteDelay |
ポーリング間隔 | pollInterval |
ベスト プラクティス
パイプラインの静的クラスタを作成する場合は、クラスタ構成のベスト プラクティスをご覧ください。
次のステップ
- コンピューティング プロファイルの管理について詳細を確認する。