Présentation de Dataproc Hub

Dataproc Hub vous permet de bénéficier de Vertex AI Workbench et de Dataproc pour exécuter des tâches interactives de ML et de traitement des données à grande échelle à l'aide de notebooks Jupyter et de l'écosystème Hadoop et Spark.

Les notebooks Dataproc Hub sont des notebooks individuels sélectionnés par l'administrateur et qui s'exécutent sur un cluster Dataproc JupyterLab créé et exécuté dans le projet de l'utilisateur.

  • Dataproc Hub exploite JupyterHub pour:

    • renforcer la cohérence au sein de votre organisation en permettant aux administrateurs de créer une liste organisée de modèles de notebooks pour différents groupes de données et d'utilisateurs de ML ;
    • accélérer la création de notebooks en fournissant aux utilisateurs des données et du ML des environnements préconfigurés qui correspondent à leurs exigences logicielles et matérielles.
  • Dataproc Hub fournit des interfaces distinctes pour les administrateurs et les utilisateurs :

    • Les administrateurs utilisent la page Dataproc → Workbench → Notebooks gérés par l'utilisateur de la console Google Cloud pour créer des instances Dataproc Hub. Chaque instance hub contient un ensemble prédéfini d'environnements de notebook définis par les fichiers de configuration de cluster YAML.
    • Les utilisateurs de données et de ML se servent de Notebooks → UI des instances dans la console Google Cloud pour sélectionner un environnement de notebook prédéfini afin de générer un serveur de notebooks sur leur cluster Dataproc.
      • Les utilisateurs qui n'ont pas accès à la console peuvent accéder à l'instance Dataproc Hub pour générer un cluster Dataproc à partir de leur navigateur Web à l'aide d'une URL d'instance Dataproc Hub fournie par l'administrateur.
  • Cas d'utilisation de Dataproc Hub :

    • Les utilisateurs de données et de ML sont organisés en groupes ayant des exigences logicielles et matérielles courantes (les utilisateurs peuvent être placés dans plusieurs groupes).
    • Accès restreint à la console Dataproc: les utilisateurs n'ont pas accès à Dataproc dans la console Google Cloud.
  • Fonctionnalités de Dataproc Hub :

    • Environnements utilisateurs prédéfinis
    • Isolation de cluster et de notebook : les membres d'un groupe donné ne disposent pas d'un accès facile aux clusters et aux notebooks des membres d'autres groupes

Pour en savoir plus