Componente Anaconda opcional do Dataproc

É possível instalar outros componentes, como o Anaconda, ao criar um cluster do Dataproc usando o recurso Componentes opcionais. Nesta página, você conhecerá o componente Anaconda.

O Anaconda (em inglês) é uma distribuição Python e um gerenciador de pacotes com mais de mil pacotes de ciência de dados conhecidos. Para mais informações sobre instalação, consulte Configurar o ambiente Python do Dataproc.

Instalar o componente

Instale o componente ao criar um cluster do Dataproc. Consulte Versões compatíveis do Dataproc para a versão do componente incluída em cada versão de imagem do Dataproc.

Comando gcloud

Para criar um cluster do Dataproc que inclua o componente Anaconda, use o comando gcloud dataproc clusters create cluster-name com a sinalização --optional-components.

gcloud dataproc clusters create cluster-name \
    --region=region \
    --optional-components=ANACONDA \
    ... other args

API REST

Especifique o componente Anaconda por meio da API Dataproc usando o SoftwareConfig.Component como parte de uma solicitação clusters.create.

Console

  1. Ativar o componente.
    • No console do Google Cloud, abra a página Criar um cluster do Dataproc. O painel "Configurar cluster" está selecionado.
    • Na seção "Componentes":
      • Em "Componentes opcionais", selecione "Anaconda" e outros componentes opcionais para instalar no cluster.