Usar Dataproc Hub

Usa Dataproc Hub para abrir la IU de JupyterLab en un clúster de Dataproc de un solo usuario.

Objetivos

  1. Usar Dataproc Hub para crear un entorno de notebook de JupyterLab que se ejecute en un clúster de Dataproc de un solo usuario.

  2. Crear un notebook y ejecuta un trabajo de Spark en el clúster de Dataproc.

  3. Borrar tu clúster y conserva tu notebook en Cloud Storage.

Antes de comenzar

  1. El administrador debe otorgarte el permiso notebooks.instances.use (consulta Configura funciones de Identity and Access Managemen (IAM)).

Abre una IU notebook de JupyterLab en un clúster de Dataproc

  1. Abre la IU de Dataproc Hub:

    1. Si tienes acceso a Cloud Console, en la página Instancias de Dataproc→Notebooks en Cloud Console, haz clic en ABRIR JUPYTERLAB en la fila que enumera la instancia de Dataproc Hub creada por un administrador.
    2. Si no tienes acceso a Cloud Console, desde tu navegador web, ingresa la URL de la instancia de Dataproc Hub que el administrador compartió contigo.
  2. En la página Jupyterhub, selecciona una configuración y una zona del clúster. Si está habilitada, especifica las personalizaciones y, luego, haz clic en Iniciar.

    El clúster tardará unos minutos en crearse. Después de crear el clúster, se te redireccionará a la IU de JupyterLab que se ejecuta en el clúster de Dataproc.

Crea un notebook y ejecuta un trabajo de Spark

  1. En el panel izquierdo de la IU de JupyterLab, haz clic en GCS o local.

  2. Crea un notebook de PySpark.

  3. El kernel de PySpark inicializa un SparkContext (mediante la variable sc). Puedes examinar SparkContext y ejecutar un trabajo de Spark desde el notebook.

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. Asigna un nombre y guarda el notebook. El notebook se guarda y permanece en Cloud Storage después de que se borra el clúster de Dataproc.

Cierra el clúster de Dataproc

  1. En la IU de JupyterLab, selecciona Archivo → Panel de control de Hub para ABRIR la IU de Dataproc Hub.

  2. Haz clic en Detener mi clúster para cerrar (borrar) el servidor de Jupyter, que borra el clúster de Dataproc.

¿Qué sigue?