Composant Dataproc Anaconda

Vous pouvez installer des composants supplémentaires lorsque vous créez un cluster Dataproc à l'aide de la fonctionnalité Composants facultatifs. Cette page décrit le composant Anaconda.

Le composant Anaconda est une distribution et un gestionnaire de packages Python contenant plus de 1 000 packages de science de données fréquemment utilisés. Le composant est installé sur tous les nœuds de cluster dans /opt/conda/anaconda et devient l'interpréteur Python par défaut.

.

Installer le composant

Installez le composant lorsque vous créez un cluster Dataproc. Des composants peuvent être ajoutés aux clusters créés avec Dataproc version 1.3 et ultérieure.

Consultez la section Versions Dataproc compatibles pour connaître la version de composant incluse dans chaque version d'image Dataproc.

Commande gcloud

Pour créer un cluster Dataproc incluant le composant Anaconda, utilisez la commande cluster-name gcloud dataproc clusters create avec l'option --optional-components.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --optional-components=ANACONDA \
    ... other args

API REST

Le composant Anaconda peut être spécifié via l'API Dataproc à l'aide de la propriété SoftwareConfig.Component dans le cadre d'une requête clusters.create.

Console

Dans Cloud Console, ouvrez la page Dataproc Créer un cluster. Cliquez sur "Options avancées" au bas de la page pour afficher la section "Optional Components" (Composants facultatifs).

Cliquez sur "Select component" (Sélectionner un composant) pour ouvrir le panneau de sélection Optional components (Composants facultatifs). Sélectionnez un ou plusieurs composants à installer sur votre cluster.