Componente opcional de Jupyter de Dataproc

Puedes instalar componentes adicionales, como Jupyter, cuando creas un Dataproc clúster mediante Componentes opcionales . En esta página, se describe el componente de Jupyter.

El componente de Jupyter es un notebook de usuario único basado en la Web para análisis de datos interactivos y admite JupyterLab IU web La IU web de Jupyter está disponible en el puerto 8123 del primer nodo principal del clúster.

Inicia notebooks para varios usuarios. Puedes crear Dataproc habilitado Instancia de Vertex AI Workbench o instala el complemento de JupyterLab de Dataproc en una VM para entregar notebooks a varios usuarios.

Configura Jupyter. Jupyter se puede configurar proporcionando dataproc:jupyter propiedades del clúster. Reducir el riesgo de ejecución remota de código en un servidor de notebook no seguro APIs, la propiedad predeterminada del clúster dataproc:jupyter.listen.all.interfaces el parámetro de configuración es false, lo que restringe las conexiones a localhost (127.0.0.1) cuando la puerta de enlace de componentes es habilitado (se requiere la activación de la puerta de enlace de componentes cuando se instala el componente de Jupyter).

El notebook de Jupyter proporciona un kernel de Python para ejecutar el código de Spark y un Kernel de PySpark De forma predeterminada, los notebooks se guardan en Cloud Storage en el bucket de etapa de pruebas de Dataproc, especificado por el usuario o creado automáticamente cuando se crea el clúster. La ubicación se puede cambiar en el momento de la creación del clúster con el Propiedad del clúster dataproc:jupyter.notebook.gcs.dir.

Trabaja con archivos de datos. Puedes usar un notebook de Jupyter para trabajar con archivos de datos que se hayan se suben a Cloud Storage. Desde que el conector de Cloud Storage ya instalada en un clúster de Dataproc, puedes hacer referencia al directamente en tu notebook. Este es un ejemplo que accede a archivos CSV en Cloud Storage:

df = spark.read.csv("gs://bucket/path/file.csv")
df.show()

Consulta Funciones genéricas de carga y guardado para ejemplos de PySpark.

Instala Jupyter

Instala el componente cuando crees un clúster de Dataproc. El componente de Jupyter requiere la activación de Dataproc Puerta de enlace del componente.

Console

  1. Habilita el componente.

gcloud CLI

Para crear un clúster de Dataproc que incluya el componente de Jupyter, usa el El comando gcloud dataproc clusters create cluster-name con la marca --optional-components.

Ejemplo de la versión de imagen predeterminada más reciente

En el siguiente ejemplo, se instala el paquete en un clúster que usa la última versión de la imagen predeterminada.

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

API de REST

El componente de Jupyter se puede instalar a través de la API de Dataproc con SoftwareConfig.Component como parte de una clusters.create para cada solicitud.

Abre las IU de Jupyter y JupyterLab

Haz clic en los vínculos de la puerta de enlace de componentes de la consola de Google Cloud. para abrir en tu navegador local el notebook de Jupyter o la IU de JupyterLab que se ejecuta en el nodo de la instancia principal del clúster.

Selecciona "GCS" o "Disco Local" para crear un nuevo notebook de Jupyter en cualquier ubicación.

Conecta GPU a los nodos principales y trabajadores

Puedes agregar GPU a los nodos principales y trabajadores de tu clúster cuando usas un notebook de Jupyter para lo siguiente:

  1. Preprocesa los datos en Spark y, luego, recopila DataFrame en la instancia principal y ejecuta TensorFlow
  2. Usa Spark para organizar las ejecuciones de TensorFlow en paralelo
  3. Ejecuta Tensorflow-on-YARN
  4. Uso con otras situaciones de aprendizaje automático que usan GPU