Componente de Jupyter de

Puedes instalar componentes adicionales cuando creas un clúster de Dataproc con la función de componentes opcionales. En esta página, se describe el componente de Jupyter.

El componente Jupyter es un notebook basado en la Web para estadísticas de datos interactivos y es compatible con la IU web de JupyterLab. La IU web de Jupyter está disponible en el puerto 8123 del primer nodo principal del clúster.

El notebook de Jupyter proporciona un kernel de Python para ejecutar el código de Spark y un kernel de PySpark. De forma predeterminada, los notebook se guardan en Cloud Storage en el depósito de staging de Dataproc, que el usuario especifica o que se crea de forma automática junto con el clúster. La ubicación se puede cambiar en el momento de la creación del clúster a través de la propiedad dataproc:jupyter.notebook.gcs.dir.

Instala Jupyter

Instala el componente cuando crees un clúster de Dataproc. Los componentes se pueden agregar a los clústeres creados con la versión 1.3 de Dataproc y las posteriores. Con las versiones con imágenes de Dataproc que no sean la vista previa de la imagen 2.0, el componente de Jupyter requiere la instalación del componente Anaconda (no se requiere la instalación del componente Anaconda o no está disponible cuando con la vista previa de la imagen 2.0).

Consulta las versiones compatibles de Dataproc para la versión del componente incluida en cada versión de la imagen de Dataproc.

Comando de gcloud

Para crear un clúster de Dataproc que incluya el componente Jupyter, usa el comando gcloud dataproc clusters create cluster-name con la marca --optional-components. En el ejemplo que aparece a continuación, se instalan los componentes de Jupyter y Anaconda (no es necesario instalar el componente de Anaconda o no está disponible cuando se usa la vista previa de la imagen 2.0).

gcloud dataproc clusters create cluster-name \
    --optional-components=ANACONDA,JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

API de REST

Los componentes de Jupyter y Anaconda se pueden especificar con la API de Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create (no es necesario instalar el componente de Anaconda o no está disponible cuando se usa la vista previa de la imagen 2.0).

Console

  1. Habilita la puerta de enlace del componente y el componente.
    • En Cloud Console, abre la página Create a cluster (Crear un clúster) de Dataproc. Se selecciona el panel Configurar clúster.
    • En la sección Componentes, sigue estos pasos:
      • En Componentes opcionales, selecciona Anaconda, Jupyter y otros componentes opcionales para instalar en tu clúster. NOTA: Si usas la imagen de vista previa 2.0, no es necesario instalar el componente Anaconda y no está disponible.
      • En Puerta de enlace de componentes, selecciona Habilitar puerta de enlace de componentes (consulta Visualiza y accede a las URL de la puerta de enlace de componentes).

Abre las IU de Jupyter y JupyterLab

Haz clic en los vínculos de la puerta de enlace del componente de Cloud Console para abrir en tu navegador local las notebooks de Jupyter o las IU de JupyterLab que se ejecutan en el nodo principal de tu clúster.

Selecciona "GCS" o "Disco Local" para crear un nuevo notebook de Jupyter en cualquier ubicación.

Adjunta GPU a nodos trabajadores o principales

Puedes agregar GPU a los nodos principales y trabajadores de tu clúster cuando usas un notebook de Jupyter para lo siguiente:

  1. Procesar los datos en Spark, luego recopilar un DataFrame en la instancia principal y ejecutar TensorFlow
  2. Usa Spark para organizar las ejecuciones de TensorFlow en paralelo
  3. Ejecuta Tensorflow-on-YARN
  4. Uso con otras situaciones de aprendizaje automático que usan GPU