Esta página se ha traducido con Cloud Translation API.

Utilizar Dataproc Hub

Objetivos

Usa Dataproc Hub para crear un entorno de cuaderno de JupyterLab de un solo usuario que se ejecute en un clúster de Dataproc.
Crea un cuaderno y ejecuta una tarea de Spark en el clúster de Dataproc.
Elimina el clúster y conserva el cuaderno en Cloud Storage.

Antes de empezar

El administrador debe concederte el permiso notebooks.instances.use (consulta Definir roles de Gestión de Identidades y Accesos (IAM)).

Crear un clúster de JupyterLab de Dataproc desde Dataproc Hub

Selecciona la pestaña Notebooks gestionados por el usuario en la página Dataproc > Workbench de la consola de Google Cloud Google Cloud.
En la fila que muestra la instancia de Dataproc Hub creada por el administrador, haz clic en Abrir JupyterLab.
1. Si no tienes acceso a la consola de Google Cloud , introduce en tu navegador web la URL de la instancia de Dataproc Hub que te haya compartido un administrador.
En la página JupyterHub → Opciones de Dataproc, selecciona una configuración de clúster y una zona. Si está habilitada, especifique las personalizaciones que quiera y haga clic en Crear.

Una vez creado el clúster de Dataproc, se te redirigirá a la interfaz de JupyterLab que se ejecuta en el clúster.

Crear un cuaderno y ejecutar una tarea de Spark

En el panel de la izquierda de la interfaz de JupyterLab, haz clic en GCS (Cloud Storage).
Crea un cuaderno de PySpark desde el menú de aplicaciones de JupyterLab.

El kernel de PySpark inicializa un SparkContext (con la variable sc). Puedes examinar el SparkContext y ejecutar una tarea de Spark desde el cuaderno.

rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
       .map(lambda word: (word, 1))
       .reduceByKey(lambda a, b: a + b))
print(rdd.collect())

Ponle un nombre al cuaderno y guárdalo. El cuaderno se guarda y permanece en Cloud Storage después de eliminar el clúster de Dataproc.

Apagar el clúster de Dataproc

En la interfaz de JupyterLab, selecciona File (Archivo) → Hub Control Panel (Panel de control de Hub) para abrir la página Jupyterhub.

Si usas versiones de imagen de Dataproc 1.4 o anteriores, ve a /hub/home para acceder a la página Jupyterhub.
Haz clic en Detener mi clúster para cerrar (eliminar) el servidor de JupyterLab, lo que elimina el clúster de Dataproc.

Detener el servidor y eliminar el clúster no elimina la instancia de Dataproc Hub. Puedes hacer clic en Start my server (Iniciar mi servidor) en la página Jupyterhub (Panel de control de Hub) o seleccionar el enlace Open JupyterLab (Abrir JupyterLab) de tu instancia de Dataproc Hub en la página Dataproc > Workbench > User-Managed Notebooks (Dataproc > Workbench > Cuadernos gestionados por el usuario) de la consola de Google Cloud para abrir, configurar y crear otro clúster de JupyterLab de Dataproc.

Siguientes pasos

Consulta Spark y los cuadernos de Jupyter en Dataproc en GitHub.