Anaconda-Komponente von Dataproc

Sie können zusätzliche Komponenten installieren, wenn Sie einen Dataproc-Cluster mit dem Feature Optionale Komponenten erstellen. Auf dieser Seite wird die Anaconda-Komponente erläutert.

Die Anaconda-Komponente ist eine Python-Distribution und ein Paketmanager mit mehr als 1.000 gängigen Data-Science-Paketen. Die Komponente wird auf allen Clusterknoten in /opt/conda/anaconda installiert und zum standardmäßigen Python-Interpreter. Zusätzliche Installationsinformationen finden Sie unter Dataproc-Python-Umgebung konfigurieren.

Komponente installieren

Installieren Sie die Komponente, wenn Sie einen Dataproc-Cluster erstellen. Informationen zu den Komponentenversionen, die im jeweiligen Dataproc-Image-Release enthalten sind, finden Sie im Abschnitt Unterstützte Dataproc-Versionen.

gcloud-Befehl

Zum Erstellen eines Dataproc-Clusters, der die Anaconda-Komponente enthält, verwenden Sie den Befehl gcloud dataproc clusters create cluster-name mit dem Flag --optional-components.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --optional-components=ANACONDA \
    ... other args

REST API

Die Anaconda-Komponente kann über die Dataproc API mit SoftwareConfig.Component als Teil einer clusters.create-Anfrage angegeben werden.

Console

  1. Aktivieren Sie die Komponente.
    • Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen. Der Bereich „Cluster einrichten“ ist ausgewählt.
    • Im Abschnitt „Komponenten“:
      • Wählen Sie unter „Optionale Komponenten“ Anaconda und andere optionale Komponenten aus, die auf Ihrem Cluster installiert werden sollen.