Puedes instalar componentes adicionales como Anaconda cuando creas un clúster de Dataproc con la función Componentes opcionales. En esta página, se describe el componente de Anaconda.
El componente de Anaconda es un administrador de paquetes y distribución de Python con más de 1,000 paquetes populares de ciencia de datos. El componente se instala en todos los nodos del clúster en /opt/conda/anaconda
y es el intérprete de Python predeterminado. Para obtener información adicional sobre la instalación, consulta Configura el entorno Python de Dataproc.
Instala el componente
Instala el componente cuando crees un clúster de Dataproc. Consulta las versiones compatibles de Dataproc para la versión del componente incluida en cada versión de la imagen de Dataproc.
Comando de gcloud
Para crear un clúster de Dataproc que incluya el componente de Anaconda, usa el comando gcloud dataproc clusters create cluster-name con la marca --optional-components
.
gcloud dataproc clusters create cluster-name \ --region=region \ --optional-components=ANACONDA \ ... other args
API de REST
El componente de Anaconda se puede especificar mediante la API de Dataproc con SoftwareConfig.Component como parte de una solicitud clusters.create.Consola
- Habilita el componente.
- En la consola de Google Cloud, abre la página Crear un clúster de Dataproc. Se selecciona el panel Configurar clúster.
- En la sección Componentes, haz lo siguiente:
- En componentes opcionales, selecciona Anaconda y otros componentes opcionales para instalar en tu clúster.