Présentation de Dataproc Hub

Dataproc Hub vous permet de tirer parti d'AI Platform Notebooks et de Dataproc pour exécuter des tâches interactives de ML et de traitement de données à grande échelle à l'aide de notebooks Jupyter et de l'écosystème Hadoop et Spark.

  • Dataproc Hub utilise JupyterHub pour:

    • renforcer la cohérence au sein de votre organisation en permettant aux administrateurs de créer une liste organisée de modèles de notebooks pour différents groupes de données et d'utilisateurs de ML ;
    • accélérer la création de notebooks en fournissant aux utilisateurs des données et du ML des environnements préconfigurés qui correspondent à leurs exigences logicielles et matérielles.
  • Dataproc Hub fournit des interfaces distinctes pour les administrateurs et les utilisateurs :

    • Les administrateurs utilisent la page Dataproc → Workbench → Notebooks gérés par l'utilisateur dans Google Cloud Console pour créer des instances Dataproc Hub. Chaque instance de hub contient un ensemble prédéfini d'environnements de notebook définis par des fichiers de configuration de cluster YAML.
    • Les utilisateurs de données et de ML utilisent l'interface utilisateur de Notebooks → Instances dans Google Cloud Console pour sélectionner un environnement notebook prédéfini afin de générer un serveur de notebooks sur leur cluster Dataproc.
      • Les utilisateurs qui n'ont pas accès à la console peuvent accéder à l'instance Dataproc Hub pour générer un cluster Dataproc à partir de leur navigateur Web à l'aide d'une URL d'instance Dataproc Hub fournie par l'administrateur.
  • Cas d'utilisation de Dataproc Hub :

    • Les utilisateurs de données et de ML sont organisés en groupes ayant des exigences logicielles et matérielles courantes (les utilisateurs peuvent être placés dans plusieurs groupes).
    • Accès restreint à la console Dataproc: les utilisateurs n'ont pas accès à Dataproc dans la console Google Cloud
  • Fonctionnalités de Dataproc Hub :

    • Environnements utilisateurs prédéfinis
    • Isolation de cluster et de notebook : les membres d'un groupe donné ne disposent pas d'un accès facile aux clusters et aux notebooks des membres d'autres groupes

Pour en savoir plus