Dataproc Hub の概要

Dataproc Hub では、Jupyter ノートブックと Hadoop と Spark のエコシステムを使用して、Vertex AI Workbench と Dataproc を利用してインタラクティブな ML とデータ処理タスクを大規模に実行できます。

Dataproc Hub ノートブックは、管理者によってキュレートされた、単一ユーザーのノートブックです。これは、ユーザーのプロジェクト内で作成され、Dataproc JupyterLab クラスタで実行されます。

  • Dataproc Hub は、JupyterHub を利用して以下を行います。

    • 管理者がさまざまなデータグループと ML ユーザー グループのためにキュレートしたノートブック リストを作成できるようにして、組織全体の整合性を維持する。
    • データと ML ユーザーにソフトウェアとハードウェアの要件を満たす構成済みの環境を提供することで、ノートブックの作成を加速する。
  • Dataproc Hub には、管理者用とユーザー用のインターフェースが用意されています。

    • 管理者は、Google Cloud コンソールの [Dataproc] → [Workbench] → [ユーザーが管理するノートブック] ページを使用して、Dataproc Hub インスタンスを作成します。各 Hub インスタンスには、YAML クラスタ構成ファイルで事前定義されたノートブック環境セットが含まれています。
    • データと ML ユーザーは Google Cloud コンソールの [Notebooks] → [Instances] UI を使用して、定義済みのノートブック環境を選択し、Dataproc クラスタでノートブック サーバーを生成します。
      • コンソールへのアクセス権がないユーザーは、Dataproc Hub インスタンスにアクセスして、管理者が提供した Dataproc Hub インスタンス URL を使用してウェブブラウザから Dataproc クラスタを生成できます。
  • Dataproc Hub のユースケース:

    • データと ML ユーザーは、共通のソフトウェアとハードウェア要件を持つグループに整理されます(ユーザーは複数のグループに配置できます)。
    • 制限付き Dataproc コンソール アクセス: ユーザーは Google Cloud コンソールで Dataproc にアクセスできません
  • Dataproc Hub の機能:

    • 事前定義されたユーザー環境
    • クラスタとノートブックの分離: グループのメンバーは、他のグループ メンバーのクラスタやノートブックに簡単にアクセスすることはできません。

詳細情報