Como criar um cluster do Hadoop

Use o Cloud Dataproc para criar uma ou mais instâncias do Compute Engine que possam se conectar a uma instância do Cloud Bigtable e executar jobs do Hadoop. Nesta página, explicamos como usar o Cloud Dataproc para automatizar as seguintes tarefas:

  • instalação do Hadoop e o cliente HBase para Java
  • configuração do Hadoop e do Cloud Bigtable
  • definição dos escopos de autorização corretos para o Cloud Bigtable

Após criar um cluster do Cloud Dataproc, será possível usá-lo para executar jobs do Hadoop que leem e gravam dados recebidos e enviados pelo Cloud Bigtable.

Para compreender melhor as instruções desta página, você precisa estar familiarizado com o Hadoop. Para mais informações, consulte a documentação do Cloud Dataproc.

Antes de começar

Antes de começar, você precisará concluir as seguintes tarefas:

  • Crie uma instância do Cloud Bigtable. Anote o código do projeto e o código da instância do Cloud Bigtable.
  • Ativar Cloud Bigtable, Cloud Bigtable Admin, Cloud Dataproc e Cloud Storage JSON APIs.

    Ativar APIs

  • Instale o Cloud SDK e a ferramenta da linha de comando gcloud. Consulte as instruções de configuração do Cloud SDK para ver mais detalhes.
  • Execute o comando abaixo para instalar a ferramenta gsutil:
    gcloud components install gsutil
  • Instale o Apache Maven, usado para executar um job do Hadoop de amostra.

    No Debian GNU/Linux ou Ubuntu, execute o seguinte comando:

    sudo apt-get install maven

    No RedHat Enterprise Linux ou CentOS, execute o seguinte comando:

    sudo yum install maven

    No macOS, instale o Homebrew e execute o seguinte comando:

    brew install maven
  • Clone o repositório do GitHub GoogleCloudPlatform/cloud-bigtable-examples, que contém um exemplo de um job do Hadoop que usa o Cloud Bigtable:
    git clone https://github.com/GoogleCloudPlatform/cloud-bigtable-examples.git

Como criar um intervalo do Cloud Storage

O Cloud Dataproc usa um intervalo do Cloud Storage para armazenar arquivos temporários. Para evitar conflitos de nomes de arquivos, crie um novo intervalo para o Cloud Dataproc.

Os nomes de intervalos do Cloud Storage precisam ser exclusivos. Escolha um nome de intervalo que provavelmente estará disponível, como um nome que incorpore o nome do seu projeto do Google Cloud Platform.

Após escolher um nome, use o comando abaixo para criar um intervalo novo, substituindo o que está entre colchetes pelos valores apropriados:

gsutil mb -p [PROJECT_ID] gs://[BUCKET_NAME]

Como criar o cluster do Cloud Dataproc

Execute o comando abaixo para criar um cluster do Cloud Dataproc com quatro nós de trabalho, substituindo o que está entre colchetes pelos valores apropriados:

gcloud dataproc clusters create [DATAPROC_CLUSTER_NAME] --bucket [BUCKET_NAME] \
    --zone [ZONE] --num-workers 4 --master-machine-type n1-standard-4 \
    --worker-machine-type n1-standard-4

Para ver outras possibilidades de configuração, consulte a documentação gcloud dataproc clusters create. Se uma mensagem de erro com o texto Insufficient 'CPUS' quota for exibida, defina um valor menor para a sinalização --num-workers.

Como testar o cluster do Cloud Dataproc

Após configurar o cluster do Cloud Dataproc, é possível testá-lo. Basta executar um job de amostra do Hadoop, que conta quantas vezes uma determinada palavra aparece em um arquivo de texto. O job de amostra usa o Cloud Bigtable para armazenar os resultados da operação. Use essa amostra como referência ao configurar seus próprios jobs do Hadoop.

Como executar o job de amostra do Hadoop

  1. No diretório em que você clonou o repositório do GitHub, altere para o diretório java/dataproc-wordcount.
  2. Execute o comando abaixo para criar o projeto, substituindo o que está entre colchetes pelos valores apropriados:

    mvn clean package -Dbigtable.projectID=[PROJECT_ID] \
        -Dbigtable.instanceID=[BIGTABLE_INSTANCE_ID]
    
  3. Execute o comando abaixo para iniciar o job do Hadoop, substituindo o que está entre colchetes pelos valores apropriados:

    ./cluster.sh start [DATAPROC_CLUSTER_NAME]
    

Após a conclusão do job, o nome da tabela de saída é exibido, que é a palavra WordCount seguida de um hífen e um número exclusivo.

Output table is: WordCount-1234567890

Como verificar os resultados do job do Hadoop

Após executar o job do Hadoop, você também pode usar o shell do HBase para verificar se ele foi executado com êxito:

  1. Abra uma janela de terminal no Cloud Shell.

    Abrir no Cloud Shell

  2. Clone o repositório que contém os arquivos de shell do HBase e altere para o diretório do shell do HBase:

    git clone https://github.com/GoogleCloudPlatform/cloud-bigtable-examples.git
    cd cloud-bigtable-examples/quickstart
  3. Inicie o shell do HBase:

    ./quickstart.sh
  4. Verifique a tabela de saída para visualizar os resultados do job do Hadoop, substituindo [TABLE_NAME] pelo nome da tabela de saída:
    scan '[TABLE_NAME]'

Após confirmar que o cluster foi configurado corretamente, use-o para executar as suas próprias tarefas do Hadoop.

Exclusão do cluster do Cloud Dataproc

Quando terminar de usar o cluster do Cloud Dataproc, execute o seguinte comando para encerrar e excluir o cluster substituindo [DATAPROC_CLUSTER_NAME] pelo nome do cluster do Cloud Dataproc:

gcloud dataproc clusters delete [DATAPROC_CLUSTER_NAME]

A seguir

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Cloud Bigtable