Übersicht über Dataproc Hub

Mit dem Dataproc Hub-Dienst können Sie mithilfe von AI Platform Notebooks und Dataproc interaktive ML- und Datenverarbeitungsaufgaben mit Jupyter-Notebooks und der Hadoop- und Spark-Umgebung ausführen.

  • Dataproc Hub nutzt JupyterHub für folgende Aufgaben:

    • Sorgen Sie für mehr Konsistenz in der gesamten Organisation, indem Sie Administratoren die Möglichkeit bieten, ausgewählte Listen mit Notebookvorlagen für verschiedene Datengruppen und ML-Nutzer zu erstellen.
    • Beschleunigen Sie die Erstellung von Notebooks, indem Sie Daten und ML-Nutzern vorkonfigurierte Umgebungen bereitstellen, die ihren Software- und Hardwareanforderungen entsprechen.
  • Dataproc Hub bietet separate Schnittstellen für Administratoren und Nutzer:

    • Administratoren erstellen mithilfe der Notebooks → Dataproc Hub-UI in der Cloud Console Dataproc Hub-Instanzen. Jede Hub-Instanz enthält eine Reihe von vordefinierten Notebookumgebungen, die von YAML-Clusterkonfigurationsdateien definiert werden.
    • Daten- und ML-Nutzer verwenden in der Cloud Console die UI von Notebooks→Instanzen, um eine vordefinierte Notebook-Umgebung auszuwählen, die einen Notebook-Server im Dataproc-Cluster erzeugen soll.
      • Nutzer ohne Konsolenzugriff können auf die Dataproc Hub-Instanz zugreifen, um mithilfe der Dataproc Hub-Instanz-URL, die vom Administrator bereitgestellt wurde, einen Dataproc-Cluster zu erstellen.
  • Anwendungsfälle für Dataproc Hub:

    • Daten- und ML-Nutzer sind in Gruppen mit gemeinsamen Software- und Hardwareanforderungen organisiert. Nutzer können in mehreren Gruppen platziert werden.
    • Eingeschränkter Zugriff auf die Dataproc-Konsole: Nutzer haben keinen Zugriff auf Dataproc in der Cloud Console
  • Features von Dataproc Hub:

    • Vordefinierte Nutzerumgebungen
    • Cluster- und Notebook-Isolierung: Die Mitglieder einer Gruppe erhalten keinen einfachen Zugriff auf Cluster und Notebooks von Mitgliedern in anderen Gruppen

Weitere Informationen