Composant Anaconda facultatif de Dataproc

Vous pouvez installer des composants supplémentaires tels qu'Anaconda lorsque vous créez un cluster Dataproc à l'aide de la fonctionnalité Composants facultatifs. Cette page décrit le composant Anaconda.

Le composant Anaconda est une distribution et un gestionnaire de packages Python contenant plus de 1 000 packages de science de données fréquemment utilisés. Le composant est installé sur tous les nœuds de cluster dans /opt/conda/anaconda et devient l'interpréteur Python par défaut. Pour obtenir plus d'informations sur l'installation, consultez la page Configurer l'environnement Dataproc Python.

Installer le composant

Installez le composant lorsque vous créez un cluster Dataproc. Consultez la section Versions Dataproc compatibles pour obtenir la version de composant incluse dans chaque version d'image Dataproc.

Commande gcloud

Pour créer un cluster Dataproc incluant le composant Anaconda, utilisez la commande cluster-name gcloud dataproc clusters create avec l'option --optional-components.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --optional-components=ANACONDA \
    ... other args

API REST

Le composant Anaconda peut être spécifié via l'API Dataproc à l'aide de la propriété SoftwareConfig.Component dans le cadre d'une requête clusters.create.

Console

  1. Activez le composant.
    • Dans la console Google Cloud, ouvrez la page Dataproc Créer un cluster. Le panneau "Configurer un cluster" est sélectionné.
    • Dans la section "Composants" :
      • Sous "Composants facultatifs", sélectionnez "Anaconda" et les autres composants facultatifs à installer sur votre cluster.