Sie können zusätzliche Komponenten installieren, wenn Sie einen Dataproc-Cluster mit dem Feature Optionale Komponenten erstellen. Auf dieser Seite wird die Anaconda-Komponente erläutert.
Die Anaconda-Komponente ist eine Python-Distribution und ein Paketmanager mit mehr als 1.000 gängigen Data-Science-Paketen. Die Komponente wird auf allen Clusterknoten in /opt/conda/anaconda
installiert und zum standardmäßigen Python-Interpreter. Zusätzliche Installationsinformationen finden Sie unter Dataproc-Python-Umgebung konfigurieren.
Komponente installieren
Installieren Sie die Komponente, wenn Sie einen Dataproc-Cluster erstellen. Informationen zu den Komponentenversionen, die im jeweiligen Dataproc-Image-Release enthalten sind, finden Sie im Abschnitt Unterstützte Dataproc-Versionen.
gcloud-Befehl
Zum Erstellen eines Dataproc-Clusters, der die Anaconda-Komponente enthält, verwenden Sie den Befehl gcloud dataproc clusters create cluster-name mit dem Flag --optional-components
.
gcloud dataproc clusters create cluster-name \ --region=region \ --optional-components=ANACONDA \ ... other args
REST API
Die Anaconda-Komponente kann über die Dataproc API mit SoftwareConfig.Component als Teil einer clusters.create-Anfrage angegeben werden.Console
- Aktivieren Sie die Komponente.
- Öffnen Sie in der Google Cloud Console die Dataproc-Seite Cluster erstellen. Der Bereich „Cluster einrichten“ ist ausgewählt.
- Im Abschnitt „Komponenten“:
- Wählen Sie unter „Optionale Komponenten“ Anaconda und andere optionale Komponenten aus, die auf Ihrem Cluster installiert werden sollen.