Componente opcional de Zeppelin de Dataproc

Puedes instalar componentes adicionales como Zeppelin cuando creas un Dataproc clúster mediante Componentes opcionales . En esta página, se describe el componente Zeppelin.

El notebook de Zeppelin es un notebook web para análisis de datos interactivo. La IU web de Zeppelin está disponible en el puerto 8080 del primer nodo principal del clúster.

De forma predeterminada, los notebook se guardan en Cloud Storage en el depósito de etapa de pruebas de Dataproc, que el usuario especifica o que se crea de forma automática junto con el clúster. La ubicación se puede cambiar en el momento de la creación del clúster a través de la propiedad zeppelin:zeppelin.notebook.gcs.dir.

Instala el componente

Instala el componente cuando crees un clúster de Dataproc. Los componentes se pueden agregar a los clústeres creados con la versión 1.3 de Dataproc y las posteriores.

Consulta las versiones compatibles de Dataproc para la versión del componente incluida en cada versión de la imagen de Dataproc.

Comando de gcloud

Para crear un clúster de Dataproc que incluya el componente de Zeppelin, sigue estos pasos: usa el gcloud dataproc clusters create cluster-name con la marca --optional-components.

gcloud dataproc clusters create cluster-name \
    --optional-components=ZEPPELIN \
    --region=region \
    --enable-component-gateway \
    ... other flags

API de REST

El componente Zeppelin se puede especificar a través de la API de Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create.

Console

  1. Habilita la puerta de enlace del componente y el componente.
    • En la consola de Google Cloud, abre Dataproc Crea un clúster . Se selecciona el panel Configurar clúster.
    • En la sección Componentes, sigue estos pasos:

Abre el notebook de Zeppelin

Consulta Visualiza y accede a las URLs de puerta de enlace de componentes. haz clic en los vínculos de Component Gateway en la consola de Google Cloud para abrir IU del notebook de Zeppelin que se ejecuta en el nodo principal del clúster en tu instancia local navegador.