Componente de Anaconda de Dataproc

Puedes instalar componentes adicionales cuando creas un clúster de Dataproc con la función de componentes opcionales. En esta página, se describe el componente de Anaconda.

El componente de Anaconda es un administrador de paquetes y distribución de Python con más de 1,000 paquetes populares de ciencia de datos. El componente se instala en todos los nodos del clúster en /opt/conda/anaconda y es el intérprete de Python predeterminado. Para obtener información adicional sobre la instalación, consulta Configura el entorno Python del clúster.

Instala el componente

Instala el componente cuando crees un clúster de Dataproc. Consulta las versiones compatibles de Dataproc para la versión del componente incluida en cada versión de la imagen de Dataproc.

Comando de gcloud

Para crear un clúster de Dataproc que incluya el componente de Anaconda, usa el comando gcloud dataproc clusters create cluster-name con la marca --optional-components.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --optional-components=ANACONDA \
    ... other args

API de REST

El componente de Anaconda se puede especificar con la API de Dataproc mediante SoftwareConfig.Component como parte de una solicitud clusters.create.

Console

  1. Habilita el componente.
    • En Cloud Console, abre la página Create a cluster (Crear un clúster) de Dataproc. Se selecciona el panel Configurar clúster.
    • En la sección Componentes, sigue estos pasos:
      • En Componentes opcionales, selecciona Anaconda y otros componentes opcionales para instalar en tu clúster.