Você pode instalar outros componentes, como o Anaconda, ao criar um Dataproc cluster usando o Componentes opcionais . Nesta página, você conhecerá o componente Anaconda.
O Anaconda (em inglês) é uma distribuição Python e um gerenciador de pacotes com mais de mil pacotes de ciência de dados conhecidos. Para mais informações sobre a instalação, consulte Configurar o ambiente Python do Dataproc.
Instalar o componente
Instale o componente ao criar um cluster do Dataproc. Consulte Versões compatíveis do Dataproc para a versão do componente incluída em cada versão de imagem do Dataproc.
Comando gcloud
Para criar um cluster do Dataproc que inclua o componente Anaconda, use o comando gcloud dataproc clusters create cluster-name com a sinalização --optional-components
.
gcloud dataproc clusters create cluster-name \ --region=region \ --optional-components=ANACONDA \ ... other args
API REST
O componente Anaconda pode ser especificado por meio de API do Dataproc usando SoftwareConfig.Component como parte de uma solicitação clusters.create.Console
- Ativar o componente.
- No console do Google Cloud, abra o Dataproc Criar um cluster página. O painel "Configurar cluster" está selecionado.
- Na seção "Componentes:"
- Em "Componentes opcionais", selecione "Anaconda" e outros componentes opcionais para instalar no cluster.