Composant Dataproc Anaconda

Vous pouvez installer des composants supplémentaires lorsque vous créez un cluster Dataproc à l'aide de la fonctionnalité Composants facultatifs. Cette page décrit le composant Anaconda.

Le composant Anaconda est une distribution et un gestionnaire de packages Python contenant plus de 1 000 packages de science de données fréquemment utilisés. Le composant est installé sur tous les nœuds de cluster dans /opt/conda/anaconda et devient l'interpréteur Python par défaut. Pour en savoir plus sur l'installation, consultez la section Configurer l'environnement Python du cluster.

Installer le composant

Installez le composant lorsque vous créez un cluster Dataproc. Consultez la section Versions Dataproc compatibles pour obtenir la version de composant incluse dans chaque version d'image Dataproc.

Commande gcloud

Pour créer un cluster Dataproc incluant le composant Anaconda, utilisez la commande cluster-name gcloud dataproc clusters create avec l'option --optional-components.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --optional-components=ANACONDA \
    ... other args

API REST

Le composant Anaconda peut être spécifié via l'API Dataproc à l'aide de la propriété SoftwareConfig.Component dans le cadre d'une requête clusters.create.

Console

  1. Activez le composant.
    • Dans Cloud Console, ouvrez la page Dataproc Créer un cluster. Le panneau "Configurer le cluster" est sélectionné.
    • Dans la section Composants :
      • Sous "Composants facultatifs", sélectionnez "Anaconda" et les autres composants facultatifs à installer sur votre cluster.