Componente opcional de Anaconda de Dataproc

Puedes instalar componentes adicionales, como Anaconda, cuando creas un Dataproc. clúster mediante Componentes opcionales . En esta página, se describe el componente de Anaconda.

El componente de Anaconda es un administrador de paquetes y distribución de Python con más de 1,000 paquetes populares de ciencia de datos. Para obtener información adicional sobre la instalación, consulta Configura el entorno de Dataproc para Python.

Instala el componente

Instala el componente cuando crees un clúster de Dataproc. Consulta las versiones compatibles de Dataproc para la versión del componente incluida en cada versión de la imagen de Dataproc.

Comando de gcloud

Para crear un clúster de Dataproc que incluya el componente de Anaconda, usa el comando gcloud dataproc clusters create cluster-name con la marca --optional-components.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --optional-components=ANACONDA \
    ... other args

API de REST

El componente de Anaconda se puede especificar con la API de Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create.

Console

  1. Habilita el componente.
    • En la consola de Google Cloud, abre Dataproc Crea un clúster . Se selecciona el panel Configurar clúster.
    • En la sección Componentes, sigue estos pasos:
      • En componentes opcionales, selecciona Anaconda y otros componentes opcionales para instalar en tu clúster.