Dataproc Hub では、Jupyter ノートブックと Hadoop と Spark のエコシステムを使用して、Vertex AI Workbench と Dataproc を利用してインタラクティブな ML とデータ処理タスクを大規模に実行できます。
Dataproc Hub ノートブックは、管理者によってキュレートされた、単一ユーザーのノートブックです。これは、ユーザーのプロジェクト内で作成され、Dataproc JupyterLab クラスタで実行されます。
Dataproc Hub は、JupyterHub を利用して以下を行います。
- 管理者がさまざまなデータグループと ML ユーザー グループのためにキュレートしたノートブック リストを作成できるようにして、組織全体の整合性を維持する。
- データと ML ユーザーにソフトウェアとハードウェアの要件を満たす構成済みの環境を提供することで、ノートブックの作成を加速する。
Dataproc Hub には、管理者用とユーザー用のインターフェースが用意されています。
- 管理者は、Google Cloud コンソールの [Dataproc] → [Workbench] → [ユーザーが管理するノートブック] ページを使用して、Dataproc Hub インスタンスを作成します。各 Hub インスタンスには、YAML クラスタ構成ファイルで事前定義されたノートブック環境セットが含まれています。
- データと ML ユーザーは Google Cloud コンソールの [Notebooks] → [Instances] UI を使用して、定義済みのノートブック環境を選択し、Dataproc クラスタでノートブック サーバーを生成します。
- コンソールへのアクセス権がないユーザーは、Dataproc Hub インスタンスにアクセスして、管理者が提供した Dataproc Hub インスタンス URL を使用してウェブブラウザから Dataproc クラスタを生成できます。
Dataproc Hub のユースケース:
- データと ML ユーザーは、共通のソフトウェアとハードウェア要件を持つグループに整理されます(ユーザーは複数のグループに配置できます)。
- 制限付き Dataproc コンソール アクセス: ユーザーは Google Cloud コンソールで Dataproc にアクセスできません
Dataproc Hub の機能:
- 事前定義されたユーザー環境
- クラスタとノートブックの分離: グループのメンバーは、他のグループ メンバーのクラスタやノートブックに簡単にアクセスすることはできません。
詳細情報
- 管理者: Dataproc Hub を構成する
- ユーザー: Dataproc Hub を使用する