Présentation de Dataproc Hub

Dataproc Hub vous permet de tirer parti de Vertex AI Workbench et de Dataproc pour exécuter des tâches de ML et de traitement de données interactives à grande échelle à l'aide de notebooks Jupyter et de l'écosystème Hadoop et Spark.

Les notebooks Dataproc Hub sont des notebooks à utilisateur unique gérés par l'administrateur qui s'exécutent sur un cluster Dataproc JupyterLab créé et exécuté dans le projet de l'utilisateur.

  • Dataproc Hub exploite JupyterHub pour:

    • renforcer la cohérence au sein de votre organisation en permettant aux administrateurs de créer une liste organisée de modèles de notebooks pour différents groupes de données et d'utilisateurs de ML ;
    • accélérer la création de notebooks en fournissant aux utilisateurs des données et du ML des environnements préconfigurés qui correspondent à leurs exigences logicielles et matérielles.
  • Dataproc Hub fournit des interfaces distinctes pour les administrateurs et les utilisateurs :

    • Les administrateurs utilisent la page Dataproc→Workbench→Notebooks gérés par l'utilisateur dans la console Google Cloud pour créer des instances Dataproc Hub. Chaque instance de hub contient un ensemble prédéfini d'environnements de notebooks définis par des fichiers de configuration de cluster YAML.
    • Les utilisateurs de données et de ML utilisent l'interface utilisateur Notebooks→Instances de la console Google Cloud pour sélectionner un environnement de notebooks prédéfini afin de générer un serveur de notebooks sur leur cluster Dataproc.
      • Les utilisateurs qui n'ont pas accès à la console peuvent accéder à l'instance Dataproc Hub pour générer un cluster Dataproc à partir de leur navigateur Web à l'aide d'une URL d'instance Dataproc Hub fournie par l'administrateur.
  • Cas d'utilisation de Dataproc Hub :

    • Les utilisateurs de données et de ML sont organisés en groupes ayant des exigences logicielles et matérielles courantes (les utilisateurs peuvent être placés dans plusieurs groupes).
    • Accès limité à la console Dataproc: les utilisateurs n'ont pas accès à Dataproc dans la console Google Cloud.
  • Fonctionnalités de Dataproc Hub :

    • Environnements utilisateurs prédéfinis
    • Isolation de cluster et de notebook : les membres d'un groupe donné ne disposent pas d'un accès facile aux clusters et aux notebooks des membres d'autres groupes

Pour en savoir plus