Componentes do Dataproc

Quando você cria um cluster, os componentes padrão do ecossistema Apache Hadoop são instalados automaticamente. Para saber mais, consulte Lista de versões do Dataproc. Ao criar um cluster, é possível instalar componentes adicionais, chamados "componentes opcionais". Adicionar componentes opcionais a um cluster é semelhante a usar ações de inicialização, mas com as seguintes vantagens:

  • Mais velocidade nos tempos de inicialização do cluster
  • Compatibilidade testada com versões específicas do Dataproc
  • Uso de um parâmetro de cluster em vez de um script de ação de inicialização
  • Componentes opcionais são integrados a outros componentes do Dataproc. Por exemplo, ao instalar Anaconda e Zeppelin em um cluster, o Zeppelin vai usar o interpretador e as bibliotecas em Python do Anaconda.

É possível adicionar componentes opcionais aos clusters criados com o Dataproc versão 1.3 e posterior.

Componentes opcionais disponíveis

Componente opcional COMPONENT_NAME
em comandos gcloud e solicitações de API
Versão de imagem Etapa da versão
Anaconda ANACONDA 1.3 ou superior
(não disponível na visualização 2.0)
GA
Docker DOCKER 1.5 ou superior GA
Druid DRUID 1.3 ou superior Alfa
Flink FLINK 1.5 ou superior GA
HBase HBASE 1.5 ou superior Beta
Hive WebHCat HIVE_WEBHCAT 1.3 ou superior GA
Jupyter Notebook JUPYTER 1.3 ou superior GA
Presto PRESTO 1.3 ou superior GA
Ranger RANGER 1.3 ou superior GA
Solr SOLR 1.3 ou superior GA
Zeppelin Notebook ZEPPELIN 1.3 ou superior GA
Zookeeper ZOOKEEPER 1.0 ou superior GA

Como adicionar componentes opcionais

Comando gcloud

Para criar um cluster do Dataproc e instalar um ou mais componentes opcionais no cluster, use o comando gcloud beta dataproc clusters create cluster-name com a sinalização --optional-components.

gcloud dataproc clusters create cluster-name \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

API REST

Especifique componentes opcionais por meio da API do Dataproc usando o SoftwareConfig.Component como parte de uma solicitação clusters.create.

Console

No Console do Cloud, abra a página Criar um cluster do Dataproc. O painel "Configurar cluster" está selecionado. Em "Componentes opcionais", na seção "Componentes", selecione um ou mais componentes para instalar no cluster.