Componente opcional de Jupyter de Dataproc

Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Puedes instalar componentes adicionales, como Jupyter, cuando creas un clúster de Dataproc con la función de componentes opcionales. En esta página, se describe el componente de Jupyter.

El componente Jupyter es un notebook basado en la Web para estadísticas de datos interactivos y es compatible con la IU web de JupyterLab. La IU web de Jupyter está disponible en el puerto 8123 del primer nodo principal del clúster.

El notebook de Jupyter proporciona un kernel de Python para ejecutar el código de Spark y un kernel de PySpark. De forma predeterminada, los notebook se guardan en Cloud Storage en el bucket de staging de Dataproc, que el usuario especifica o que se crea de forma automática junto con el clúster. La ubicación se puede cambiar en el momento de la creación del clúster a través de la propiedad del clúster dataproc:jupyter.notebook.gcs.dir.

Instala Jupyter

Instala el componente cuando crees un clúster de Dataproc. El componente de Jupyter requiere la activación de la puerta de enlace de componentes de Dataproc. Cuando usas la versión 1.5 de una imagen, también debes instalar el componente Anaconda para instalar el componente de Jupyter.

Consola

  1. Habilita el componente.
    • En Google Cloud Console, abre la página Create a cluster (Crear un clúster) de Dataproc. El panel Configurar clúster está configurado.
    • En la sección Componentes (Components), sigue estos pasos:

CLI de gcloud

Para crear un clúster de Dataproc que incluya el componente de Jupyter, usa el comando gcloud dataproc clusters create cluster-name con la marca --optional-components.

Ejemplo de la versión predeterminada de la imagen más reciente

En el siguiente ejemplo, se instala el componente de Jupyter en un clúster que usa la última versión de imagen predeterminada.

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

Ejemplo de versión de imagen 1.5

En el siguiente ejemplo de versión con imágenes 1.5, se instalan los componentes de Jupyter y Anaconda (se requiere la instalación del componente Anaconda cuando se usa la versión 1.5 de imágenes).

gcloud dataproc clusters create cluster-name \
    --optional-components=ANACONDA,JUPYTER \
    --region=region \
    --image-version=1.5 \
    --enable-component-gateway \
    ... other flags

API de REST

El componente de Jupyter se puede instalar a través de la API de Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create (también se requiere la instalación del componente Anaconda cuando se usa la versión 1.5 de la imagen).

Abre las IU de Jupyter y JupyterLab

Haz clic en los vínculos de puerta de enlace de componentes de Google Cloud Console para abrir en tu navegador local el notebook de Jupyter o la IU de JupyterLab que se ejecuta en el nodo principal del clúster.

Selecciona "GCS" o "Disco Local" para crear un nuevo notebook de Jupyter en cualquier ubicación.

Adjunta GPU a nodos trabajadores o principales

Puedes agregar GPU a los nodos principales y trabajadores de tu clúster cuando usas un notebook de Jupyter para lo siguiente:

  1. Preprocesa los datos en Spark, luego recopila un DataFrame en la instancia principal y ejecuta TensorFlow
  2. Usa Spark para organizar las ejecuciones de TensorFlow en paralelo
  3. Ejecuta Tensorflow-on-YARN
  4. Uso con otras situaciones de aprendizaje automático que usan GPU