Descripción general de Dataproc Hub

Dataproc Hub te permite aprovechar Vertex AI Workbench y Dataproc para ejecutar tareas interactivas de procesamiento de datos y AA a gran escala mediante notebooks de Jupyter y el ecosistema de Hadoop y Spark.

Los notebooks de Dataproc Hub son notebooks de un solo usuario seleccionados por el administrador que se ejecutan en un clúster de JupyterLab de Dataproc que se crea y ejecuta en el proyecto del usuario.

  • Dataproc Hub aprovecha JupyterHub para lo siguiente:

    • Permite que los administradores creen una lista seleccionada de plantillas de notebook para diferentes grupos de datos y usuarios del AA a fin de lograr la coherencia en toda la organización.
    • Acelera la creación de notebooks mediante el aprovisionamiento de datos y usuarios del AA con entornos preconfigurados que coincidan con sus requisitos de software y hardware.
  • Dataproc Hub proporciona interfaces independientes para administradores y usuarios:

    • Los administradores usan la página Dataproc→Workbench→Notebooks administrados por el usuario en la consola de Google Cloud para crear instancias de Dataproc Hub. Cada instancia de concentrador contiene un conjunto predefinido de entornos de notebook que se definen mediante archivos de configuración de clústeres YAML.
    • Los usuarios de datos y AA usan la IU de Notebooks→Instancias en la consola de Google Cloud para seleccionar un entorno de notebook predefinido y generar un servidor de notebook en su clúster de Dataproc.
      • Los usuarios sin acceso a la consola pueden acceder a la instancia de Dataproc Hub para generar un clúster de Dataproc a partir de su navegador web mediante una URL de instancia de Dataproc Hub que proporciona el administrador.
  • Casos de uso de Dataproc Hub:

    • Los usuarios de datos y AA están organizados en grupos con requisitos comunes de software y hardware (los usuarios se pueden ubicar en varios grupos)
    • Acceso a la consola de Dataproc restringido: Los usuarios no tienen acceso a Dataproc en la consola de Google Cloud
  • Características de Dataproc Hub:

    • Entornos de usuario predefinidos
    • Aislamiento de clústeres y notebooks: los miembros de un grupo no proporcionan acceso fácil a los clústeres y notebooks de los miembros de otros grupos

Más información