Dataproc Hub の概要

Dataproc Hub サービスでは、Jupyter ノートブックと Hadoop と Spark のエコシステムを使用して、AI Platform Notebooks と Dataproc を利用してインタラクティブな ML とデータ処理タスクを大規模に実行できます。

  • Dataproc Hub では、JupyterHub を利用して次のことができます。

    • 管理者がさまざまなデータグループと ML ユーザー グループのためにキュレートしたノートブック リストを作成できるようにして、組織全体の整合性を維持する。
    • データと ML ユーザーにソフトウェアとハードウェアの要件を満たす構成済みの環境を提供することで、ノートブックの作成を加速する。
  • Dataproc Hub には、管理者用とユーザー用のインターフェースが用意されています。

    • 管理者は、Cloud Console で [Notebooks] → [Dataproc Hub] UI を使用して Dataproc Hub インスタンスを作成します。各ハブ インスタンスには、YAML クラスタ構成ファイルで事前定義されたノートブック環境セットが含まれています。
    • データと ML ユーザーは Cloud Console の [Notebooks] → [Instances] UI を使用して、定義済みのノートブック環境を選択し、Dataproc クラスタでノートブック サーバーを生成します。
      • コンソールへのアクセス権がないユーザーは、Dataproc Hub インスタンスにアクセスして、管理者が提供した Dataproc Hub インスタンス URL を使用してウェブブラウザから Dataproc クラスタを生成できます。
  • Dataproc Hub のユースケース:

    • データと ML ユーザーは、同じソフトウェア要件とハードウェア要件を持つグループにまとめられます(ユーザーは複数のグループに配置できます)。
    • 制限付き Dataproc コンソール アクセス: ユーザーは Cloud Console で Dataproc にアクセスできません。
  • Dataproc Hub の機能:

    • 事前定義されたユーザー環境
    • クラスタとノートブックの分離: グループのメンバーは、他のグループ メンバーのクラスタやノートブックに簡単にアクセスすることはできません。

詳細情報