Anaconda-Komponente von Dataproc

Sie können zusätzliche Komponenten installieren, wenn Sie einen Dataproc-Cluster mit dem Feature Optionale Komponenten erstellen. Auf dieser Seite wird die Anaconda-Komponente erläutert.

Die Anaconda-Komponente ist eine Python-Distribution und ein Paketmanager mit mehr als 1.000 gängigen Data-Science-Paketen. Die Komponente wird auf allen Clusterknoten in /opt/conda/anaconda installiert und zum standardmäßigen Python-Interpreter.

Komponente installieren

Installieren Sie die Komponente, wenn Sie einen Dataproc-Cluster erstellen. Sie können Komponenten in Cluster einfügen, die mit Dataproc Version 1.3 oder höher erstellt wurden.

Informationen zu den Komponentenversionen, die im jeweiligen Dataproc-Image-Release enthalten sind, finden Sie im Abschnitt Unterstützte Dataproc-Versionen.

gcloud-Befehl

Zum Erstellen eines Dataproc-Clusters, der die Anaconda-Komponente enthält, verwenden Sie den Befehl gcloud dataproc clusters create cluster-name mit dem Flag --optional-components.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --optional-components=ANACONDA \
    ... other args

REST API

Die Anaconda-Komponente kann über die Dataproc-API mit SoftwareConfig.Component als Teil einer clusters.create-Anfrage angegeben werden.

Console

Öffnen Sie in der Cloud Console die Dataproc-Seite Cluster erstellen. Klicken Sie unten auf der Seite auf "Advanced Options" (Erweiterte Optionen), um den Abschnitt "Optional Components" (Optionale Komponenten) aufzurufen.

Klicken Sie auf "Select component" (Komponente auswählen), um den Auswahlbereich Optional components (Optionale Komponenten) aufzurufen. Wählen Sie eine oder mehrere Komponenten für die Installation im Cluster aus.