Como configurar o Cloud Dataflow no Eclipse

Nesta página, explicaremos como criar um projeto do Dataflow e executar um exemplo de pipeline a partir do Eclipse.

O plug-in do Eclipse no Dataflow funciona apenas com a distribuição do SDK do Dataflow, versões 2.0.0 a 2.5.0. Ele não funciona com a distribuição do SDK do Apache Beam.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.

  4. Ative as APIs Cloud Dataflow, Compute Engine, Stackdriver Logging, Cloud Storage, Cloud Storage JSON, BigQuery, Cloud Pub/Sub, Cloud Datastore e Cloud Resource Manager.

    Ative as APIs

  5. Instale e inicialize o SDK do Cloud..
  6. Confirme se você tem o Eclipse IDE versão 4.7 ou posterior instalado.
  7. Confirme se você instalou o Java Development Kit (JDK) versão 1.8 ou posterior.
  8. Confirme se você instalou a versão mais recente do plug-in Cloud Tools for Eclipse.
    1. Siga o Guia de início rápido do Cloud Tools for Eclipse para instalar o plug-in, se ainda não tiver feito isso.
    2. Ou selecione Help > Check for Updates para atualizar o plug-in para a versão mais recente.

Criar um projeto do Dataflow no Eclipse

Para criar um projeto, use o assistente Novo projeto para gerar um aplicativo modelo que você pode usar como base para seu próprio aplicativo.

Caso não tenha um aplicativo, execute o aplicativo de exemplo WordCount para concluir o restante dos procedimentos aqui descritos.

  1. Selecione File -> New -> Project.
  2. No diretório do Google Cloud Platform, selecione Cloud Dataflow Java Project.
  3. Um assistente para selecionar o tipo de projeto que você está criando. Há diretórios para General, Eclipse Modeling Framework, EJB, Java e Java EE. Há também um diretório expandido do Google Cloud com opções para criar um projeto Java flexível do App Engine, um projeto Java padrão do App Engine e um projeto Java do Dataflow.
  4. Preencha o campo Group ID.
  5. Preencha o campo Artifact ID.
  6. Selecione um modelo em Project Template. Para o exemplo do WordCount, selecione Example pipelines.
  7. Selecione a versão em Project Dataflow Version. Para o exemplo do WordCount, selecione 2.5.0.
  8. Digite o nome do pacote em Package. Para o exemplo do WordCount, insira com.google.cloud.dataflow.examples.
  9. Um assistente para criar um projeto do Dataflow. Ele fornece campos para inserir o ID do grupo, o ID de artefato, o modelo de projeto, a versão do Dataflow, o nome do pacote, o local do espaço de trabalho e o modelo de nome. Tem botões para voltar, passar para o próximo, cancelar a operação e concluir.
  10. Clique em Next.

Configurar as opções de execução

Agora você verá a caixa de diálogo Set Default Cloud Tools for Eclipse Run Options.

  1. Selecione a conta associada ao seu projeto do Google Cloud ou adicione uma nova conta. Para adicionar uma nova conta:
    1. Selecione Add a new account... no menu suspenso Account.
    2. Será aberta uma nova janela do navegador para completar o processo de login.
  2. Insira seu ID do projeto do Google Cloud Platform.
  3. Selecione um local de preparação do Cloud Storage ou crie um local de preparação. Para criar um local de preparação:
    1. Insira um nome exclusivo para o local de preparação do Cloud Storage. O nome do local precisa conter o nome do bucket e uma pasta. Os objetos são criados no bucket do Cloud Storage dentro da pasta especificada. Não inclua informações confidenciais no nome do bucket, porque o namespace dele é global e visível para o público.
    2. Clique em Create Bucket.
    3. Uma caixa de diálogo para inserir a conta do Google Cloud, o ID do Google Cloud Platform e o local de preparação do Cloud Storage. O botão "Criar" permite que você crie um local de preparação. Há botões para voltar, avançar para a próxima janela, cancelar a operação ou concluir a operação.
  4. Clique em Browse para localizar sua chave da conta de serviço.
  5. Clique em Finish.

Execute o pipeline de exemplo WordCount no serviço do Dataflow

Após criar o projeto Cloud Tools for Eclipse, você pode criar pipelines que são executados no serviço Dataflow. Por exemplo, execute o canal de exemplo do WordCount.

  1. Selecione Run -> Run Configurations.
  2. No menu à esquerda, selecione Dataflow Pipeline.
  3. Clique em New Launch Configuration.
  4. Uma caixa de diálogo para selecionar a configuração de execução do pipeline do Dataflow. As opções incluem o Apache Tomcat, o servidor local do App Engine, o pipeline do Dataflow, o aplicativo Eclipse, as ferramentas de dados do Eclipse. O ponteiro do mouse passa sobre o botão "New Launch Configuration" e a dica de ferramenta desse botão é exibida.
  5. Clique na guia Main.
  6. Clique em Browse para selecionar seu projeto do Dataflow.
  7. Clique em Search... e selecione o tipo principal do WordCount.
  8. Clique na guia Pipeline Arguments.
  9. Selecione o executor do DataflowRunner.
  10. Clique na guia Arguments.
  11. No campo Program arguments, defina a saída como Cloud Storage Staging Location. O local de organização precisa ser uma pasta. Não é possível organizar jobs de pipeline a partir de um diretório de raiz do intervalo.
  12. Uma caixa de diálogo com a guia "Arguments" selecionada. No campo de argumentos do programa, a opção --output é configurada para o local de teste gravável.
  13. Clique em Run.
  14. Quando o job terminar, você verá, entre outros resultados, a seguinte linha no console do Eclipse:
    Submitted job: <job_id>

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados neste guia de início rápido, siga estas etapas:

  1. Abra o navegador do Cloud Storage no Console do Google Cloud.
  2. Marque a caixa de seleção ao lado do bucket criado.
  3. Clique em EXCLUIR.
  4. Clique em Excluir para confirmar que quer excluir permanentemente o bucket e seu conteúdo.

Próximas etapas