Esta página foi traduzida pela API Cloud Translation.
Switch to English

Como executar um pipeline em um cluster atual do Dataproc

Nesta página, descrevemos como executar um pipeline no Cloud Data Fusion em um cluster atual do Dataproc.

Por padrão, o Cloud Data Fusion cria clusters efêmeros para cada pipeline: cria um cluster no início da execução do pipeline e o exclui após a conclusão da execução do pipeline. Embora esse comportamento economize custos, garantindo que os recursos sejam criados somente quando necessário, esse comportamento padrão pode não ser desejável nos seguintes cenários:

  • Se o tempo necessário para criar um novo cluster para cada pipeline for adequado para seu caso de uso.

  • Se a organização exigir que a criação de cluster seja gerenciada centralmente; por exemplo, quando você quiser aplicar políticas específicas a todos os clusters do Dataproc.

Para esses cenários, execute pipelines em um cluster atual seguindo as etapas a seguir. As etapas são simplificadas nas versões 6.2 e posteriores.

Antes de começar

Você precisará do seguinte:

Versões 6.2 e superiores

Como se conectar ao cluster atual

Nas versões 6.2 e posteriores do Cloud Data Fusion, é possível se conectar a um cluster atual do Dataproc quando você cria um novo perfil do Compute Engine.

  1. No Console do Google Cloud, abra a página Instâncias do Cloud Data Fusion.

  2. Clique em Visualizar instância.

  3. Clique em Administrador do sistema.

  4. Clique na guia Configuration.

  5. Expanda a caixa System Compute Profiles.

  6. Clique em Criar novo perfil. Uma página de provisionadores será aberta.

  7. Clique em Dataproc atual.

  8. Insira o perfil, as informações de monitoramento e o perfil pretendidos.

  9. Clique em Criar.

Como configurar o pipeline para usar o perfil personalizado

  1. No Pipeline Studio, clique em Configure.

  2. Clique em Compute config.

  3. Clique no perfil que você criou.

    Usar perfil personalizado
  4. Execute o canal. Agora, ele é executado no cluster atual do Dataproc.

Versões anteriores à versão 1.14

Como configurar SSH em um cluster do Dataproc

  1. Na página Clusters do Dataproc, clique no nome do cluster. Será aberta uma página com os detalhes do cluster.

  2. Clique na guia Instâncias de VM e no botão SSH para se conectar à VM mestre do Dataproc.

  3. Crie uma nova chave SSH executando o seguinte comando:

    ssh-keygen -m PEM -t rsa -b 4096 -f ~/.ssh/key_filename -C username
    

    Os dois arquivos a seguir são criados:

    • ~/.ssh/key_filename Chave privada
    • ~/.ssh/key_filename.pub Chave pública
  4. Copie toda a chave pública SSH. Para visualizar a chave em um formato legível, execute o seguinte comando:

    cat  ~/.ssh/key_filename.pub
    

  5. Abra a página Metadados do Compute Engine, selecione a guia Chaves SSH e clique em Editar.

  6. Clique em Adicionar item.

  7. Na caixa de texto exibida, cole a chave pública que você copiou anteriormente.

  8. Clique em Save.

Como criar um perfil de computação de sistema personalizado para a instância

  1. No Console do Google Cloud, abra a página Instâncias do Cloud Data Fusion.

  2. Clique em Visualizar instância.

  3. Clique em Administrador do sistema.

  4. Clique na guia Configuration.

  5. Expanda a caixa System Compute Profiles.

  6. Clique em Criar novo perfil. Uma página de provisionadores será aberta.

  7. Clique em Provisionador do Hadoop remoto.

  8. Na página Criar um perfil para o provisionador remoto do Hadoop, insira as informações do perfil, incluindo as informações de SSH:

    • Host: encontre as informações de IP do host SSH do nó mestre nos detalhes da página Instância da VM do Compute Engine.
    .
    Localizar IP do nó mestre
    • Usuário: o nome de usuário que você especificou ao criar as chaves SSH.
    • Chave privada SSH: cole a chave privada SSH que você criou anteriormente. Para visualizar o conteúdo da chave em um formato legível, use o seguinte comando:
       cat  ~/.ssh/key_filename 

    Inclua os comentários de início e fim na cópia.

  9. Clique em Criar.

Como configurar o pipeline para usar o perfil personalizado

  1. No Pipeline Studio, clique em Configure.

  2. Clique em Compute config.

  3. Clique no perfil que você criou.

    Usar perfil personalizado
  4. Execute o canal. Agora, ele é executado no cluster atual do Dataproc.

Solução de problemas

  • Se o pipeline falhar no tempo limite de conexão, verifique se a chave SSH e as regras de firewall estão configuradas corretamente.

  • Se você receber um erro invalid privatekey ao executar o pipeline, verifique se a primeira linha da chave privada é a seguinte: ----BEGIN OPENSSH PRIVATE KEY-----. Se estiver, tente gerar um par de chaves com o tipo RSA:

    ssh-keygen -m PEM -t rsa -b 4096 -f ~/.ssh/key_filename -C username
    
  • Se você receber o erro a seguir do pipeline, java.io.IOException:com.jcraft.jsch.JSchException: Auth fail, siga estas etapas:

    • Valide a chave SSH conectando-se manualmente ao nó de destino do Dataproc usando a chave SSH.
    • Se você estiver se conectando manualmente à VM via SSH a partir da linha de comando e uma chave privada funcionar, mas a mesma configuração resultar em uma exceção Auth failed do JSch, verifique se o login do SO não está ativado. para criar um anexo da VLAN de monitoramento. Na IU do Compute Engine, clique em Metadados no menu à esquerda e na guia Metadados. Exclua a chave osLogin ou defina-a como FALSE.