Información general sobre Dataproc Hub

Dataproc Hub te permite aprovechar Vertex AI Workbench y Dataproc para ejecutar tareas interactivas de aprendizaje automático y procesamiento de datos a gran escala con cuadernos de Jupyter y el ecosistema de Hadoop y Spark.

Los cuadernos de Dataproc Hub son cuadernos de un solo usuario seleccionados por el administrador que se ejecutan en un clúster de JupyterLab de Dataproc creado y ejecutado en el proyecto del usuario.

  • Dataproc Hub usa JupyterHub para lo siguiente:

    • Ofrece coherencia en toda la organización permitiendo que los administradores creen una lista seleccionada de plantillas de cuaderno para diferentes grupos de usuarios de datos y de aprendizaje automático.
    • Acelera la creación de cuadernos proporcionando a los usuarios de datos y aprendizaje automático entornos preconfigurados que se ajusten a sus requisitos de software y hardware.
  • Dataproc Hub proporciona interfaces independientes para administradores y usuarios:

    • Los administradores usan la página Dataproc > Workbench > Cuadernos gestionados por usuarios de la consola para crear instancias de Dataproc Hub. Google Cloud Cada instancia de centro de control contiene un conjunto predefinido de entornos de cuaderno definidos por archivos de configuración de clúster YAML.
    • Los usuarios de datos y aprendizaje automático utilizan la interfaz de usuario Cuadernos → Instancias de la consolaGoogle Cloud para seleccionar un entorno de cuaderno predefinido y generar un servidor de cuadernos en su clúster de Dataproc.
      • Los usuarios que no tengan acceso a la consola pueden acceder a la instancia de Dataproc Hub para crear un clúster de Dataproc desde su navegador web mediante una URL de instancia de Dataproc Hub proporcionada por el administrador.
  • Casos prácticos de Dataproc Hub:

    • Los usuarios de datos y aprendizaje automático se organizan en grupos con requisitos de software y hardware comunes (los usuarios pueden pertenecer a varios grupos).
    • Acceso restringido a la consola de Dataproc: los usuarios no tienen acceso a Dataproc en la consola. Google Cloud
  • Funciones de Dataproc Hub:

    • Entornos de usuario predefinidos
    • Aislamiento de clústeres y cuadernos: los miembros de un grupo no tienen acceso fácil a los clústeres y cuadernos de los miembros de otros grupos.

Más información