Se usó la API de Cloud Translation para traducir esta página.
Switch to English

Usar Dataproc Hub

Usa Dataproc Hub para abrir la IU de JupyterLab en un clúster de Dataproc de un solo usuario.

Objetivos

  1. Usar Dataproc Hub para crear un entorno de notebook de JupyterLab que se ejecute en un clúster de Dataproc de un solo usuario

  2. Crear un notebook y ejecutar un trabajo de Spark en el clúster de Dataproc

  3. Borra el clúster y conserva tu notebook en Cloud Storage.

Antes de comenzar

  1. El administrador debe otorgarte el permiso notebooks.instances.use (consulta Configura funciones de administración de identidades y accesos (IAM)).

Abre una IU notebook de JupyterLab en un clúster de Dataproc

  1. Abre la IU de Dataproc Hub:

    1. Si tienes acceso a Cloud Console, en laInstancias de Dataproc→Notebooks en Cloud Console, haz clic en ABRIR JUPYTERLAB en la fila que muestra la instancia de Dataproc Hub creada por un administrador.
    2. Si no tienes acceso a Cloud Console, desde tu navegador web, ingresa la URL de la instancia de Dataproc Hub que el administrador compartió contigo.
  2. En la página de Jupyterhub, selecciona una configuración y clúster de clúster. Si está habilitada, especifica cualquier personalización y, luego, haz clic en Iniciar.

    El clúster tarda unos minutos en crearse. Después de crear el clúster, se te redireccionará a la IU de JupyterLab que se ejecuta en el clúster de Dataproc.

Crea un notebook y ejecuta un trabajo de Spark

  1. En el panel izquierdo de la IU de JupyterLab, haga clic en GCS o local.

  2. Crear un notebook de PySpark

  3. El kernel de PySpark inicializa un SparkContext (con la variable sc). Puede examinar el SparkContext y ejecutar un trabajo de Spark desde el notebook.

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. Asígnale un nombre y guarda el notebook. El notebook se guarda y permanece en Cloud Storage después de borrar el clúster de Dataproc.

Cierra el clúster de Dataproc

  1. Desde la IU de JupyterLab, seleccione Archivo→Panel de control de File→Hub para ABRIR la IU del centro de Dataproc.

  2. Haz clic en Detener mi servidor para cerrar (borrar) el servidor de Jupyter, que borra el clúster de Dataproc.

¿Qué sigue?