Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Dataproc Hub te permite aprovechar Vertex AI Workbench y Dataproc para ejecutar tareas interactivas de AA y procesamiento de datos a gran escala con notebooks de Jupyter y el ecosistema de Hadoop y Spark.
Los notebooks de Dataproc Hub son notebooks de un solo usuario seleccionados por el administrador que se ejecutan en un clúster de Dataproc JupyterLab creado y ejecutado en el proyecto del usuario.
Dataproc Hub aprovecha JupyterHub para lo siguiente:
Permite que los administradores creen una lista seleccionada de plantillas de notebook para diferentes grupos de datos y usuarios del AA a fin de lograr la coherencia en toda la organización.
Acelera la creación de notebooks mediante el aprovisionamiento de datos y usuarios del AA con entornos preconfigurados que coincidan con sus requisitos de software y hardware.
Dataproc Hub proporciona interfaces independientes para administradores y usuarios:
Los administradores usan la página Dataproc→Workbench→Notebooks administrados por el usuario en la consola de Google Cloud para crear instancias de Dataproc Hub. Cada instancia de hub contiene un conjunto predefinido de entornos de notebook definidos por archivos de configuración de clústeres YAML.
Los usuarios de datos y AA usan la IU de Notebooks→Instancias en la consola deGoogle Cloud para seleccionar un entorno de notebook predefinido y generar un servidor de notebook en su clúster de Dataproc.
Los usuarios sin acceso a la consola pueden acceder a la instancia de Dataproc Hub para generar un clúster de Dataproc a partir de su navegador web mediante una URL de instancia de Dataproc Hub que proporciona el administrador.
Casos de uso de Dataproc Hub:
Los usuarios de datos y AA están organizados en grupos con requisitos comunes de software y hardware (los usuarios se pueden ubicar en varios grupos)
Acceso a la consola de Dataproc restringido: Los usuarios no tienen acceso a Dataproc en la Google Cloud consola
Características de Dataproc Hub:
Entornos de usuario predefinidos
Aislamiento de clústeres y notebooks: los miembros de un grupo no proporcionan acceso fácil a los clústeres y notebooks de los miembros de otros grupos
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-04 (UTC)"],[[["\u003cp\u003eDataproc Hub and Vertex AI Workbench user-managed notebooks are deprecated and will no longer be supported after January 30, 2025.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Hub allows administrators to create and manage curated notebook templates for different data and ML user groups within an organization.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Hub enables users to quickly create notebook servers on Dataproc clusters from pre-configured environments that match their specific software and hardware requirements.\u003c/p\u003e\n"],["\u003cp\u003eAdministrators can use the Google Cloud console to configure Dataproc Hub instances, while data and ML users can select and spawn notebook servers from predefined environments.\u003c/p\u003e\n"],["\u003cp\u003eDataproc Hub offers benefits such as predefined user environments, cluster and notebook isolation between different groups of users, and can be used by teams with restricted access to the console.\u003c/p\u003e\n"]]],[],null,["| Dataproc Hub and\n| Vertex AI Workbench user-managed notebooks are\n| deprecated. On January 30, 2025, support for user-managed notebooks\n| will end and the ability to create user-managed notebooks instances\n| will be removed. For alternative notebook solutions\n| on Google Cloud, see:\n|\n| - [Install\n| the Jupyter component on your Dataproc cluster](/dataproc/docs/concepts/components/jupyter#install_jupyter).\n| - [Create\n| a Dataproc-enabled\n| Vertex AI Workbench instance](/vertex-ai/docs/workbench/instances/create-dataproc-enabled).\n\nThe Dataproc Hub lets you to take advantage of\nVertex AI Workbench and Dataproc to run\ninteractive ML and\ndata processing tasks at scale using Jupyter notebooks and the Hadoop and Spark\necosystem.\n\nDataproc Hub notebooks are administrator-curated,\nsingle-user notebooks running on a Dataproc JupyterLab cluster\ncreated and running in the user's project.\n\n- Dataproc Hub leverages JupyterHub to:\n\n - Bring consistency across the organization by enabling administrators to create a curated list of notebook templates for different groups of data and ML users.\n - Accelerate notebook creation by providing data and ML users with pre-configured environments that match their software and hardware requirements.\n- Dataproc Hub provides separate interfaces for administrators and\n users:\n\n - Administrators use the **Dataproc→Workbench→User-Managed Notebooks** page in the Google Cloud console to create Dataproc Hub instances. Each hub instance contains a predefined set of notebook environments defined by YAML cluster configuration files.\n - Data and ML users use the Notebooks→Instances UI in the Google Cloud console to select a predefined notebook environment to spawn a notebook server on their Dataproc cluster.\n - Users without console access can access the Dataproc Hub instance to spawn a Dataproc cluster from their web browser by using a Dataproc Hub instance URL provided by the administrator. If the organization does not define and implement separate notebook administrative and user roles, instead of using Dataproc Hub to configure and spawn a Jupyter notebook cluster, users can [install the Jupyter component on their cluster](/dataproc/docs/concepts/components/jupyter).\n- Dataproc Hub use cases:\n\n - Data and ML users are organized in groups with common software and hardware requirements (users can be placed in multiple groups)\n - Restricted Dataproc console access: Users do not have access to Dataproc in the Google Cloud console\n- Dataproc Hub features:\n\n - Predefined user environments\n - Cluster and notebook isolation: members of a group are not provided easy access to clusters and notebooks of members in other groups\n\nFor more information\n\n- Admins: [Configure Dataproc Hub](/dataproc/docs/tutorials/dataproc-hub-admins)\n- Users: [Use Dataproc Hub](/dataproc/docs/tutorials/dataproc-hub-users)"]]