Criar sequência de conjuntos de dados

Em algumas situações, talvez seja necessário criar uma sequência de conjuntos de dados em que o resultado de um roteiro se torna a entrada de outro.

Possíveis usos:

  1. Pode ser necessário lidar com tarefas de limpeza de dados em um conjunto antes de disponibilizá-los para outros usuários para personalização.
  2. Pode ser necessário descartar colunas ou linhas de dados antes que o conjunto de dados seja disponibilizado para outros usuários.
  3. Pessoas diferentes podem trabalhar em cada fase do processo de transformação de dados. Por exemplo, um indivíduo pode ser responsável por limpar os dados, enquanto outro pode ser responsável por transformar os dados no formato final.

Dependendo da situação, é possível aplicar uma das soluções a seguir.

Roteiros em cadeia no mesmo fluxo

Dentro de um fluxo, é possível encadear roteiros. Por exemplo, talvez você queira usar o primeiro roteiro para limpeza e o segundo para transformação. Esse método é útil se você estiver usando um único conjunto de dados importado para vários tipos de transformações no mesmo fluxo.

Etapas:

  1. Clique no conjunto de dados importado. Clique em Adicionar novo roteiro.
  2. Clique no novo roteiro. Nomeie-o como Cleanse.
  3. Com o novo roteiro selecionado, clique em Adicionar novo roteiro.
  4. Clique no novo roteiro. Nomeie-o como Transform.

O resultado do roteiro Cleanse se torna a entrada do roteiro Transform.

Figura: roteiros encadeados

Criar objetos de referência

Se você precisa disponibilizar o resultado de um roteiro em outros fluxos, crie um objeto de referência. Essa referência está disponível em outros fluxos que você controla.

Etapas:

  1. Na Visualização de fluxo, selecione o roteiro com o resultado que você quer disponibilizar para outros fluxos.
  2. Clique no ícone Criar Referência:

    Figura: criar objeto de referência

  3. Para usá-lo em um dos seus outros fluxos, clique em Adicionar ao fluxo....
  4. No fluxo de destino, o objeto de referência aparece como um conjunto de dados de referência. Ele funciona como um conjunto de dados importado com as considerações a seguir.

Principais considerações:

  • Quando você executa um job em um fluxo que contém um conjunto de dados de referência, todas as dependências upstream desse conjunto de dados de referência são executadas. Para o objeto de referência de origem, todos os conjuntos de dados e roteiros importados são reunidos e executados para preencher o conjunto de dados de referência com dados novos.
  • O item acima tem estas implicações:
    • Se o usuário que estiver executando o job no fluxo nº 2 não tiver permissões para acessar todas as dependências upstream do conjunto de dados de referência, o job poderá falhar. Essas dependências incluem conjuntos de dados importados e todas as conexões.

    • Se os objetos upstream forem de propriedade de outros usuários, talvez você não consiga revisar esses itens. Por exemplo, se o roteiro da fonte for alterado por outro usuário, ele pode falhar sem aviso prévio. Se não for possível revisar esse roteiro, será possível ver o que foi alterado e como fazer a correção.

Criar conjunto de dados importado do resultado

Se alguma das considerações acima for uma preocupação, é possível criar um conjunto de dados importado dos resultados do job do fluxo nº 1.

Na página "Detalhes do job", clique na guia "Destinos de saída". Para o resultado gerado, selecione Criar um conjunto de dados importado no menu de contexto.

OBSERVAÇÃO: quando o novo conjunto de dados é criado, ele é acessível apenas ao criador. Os conjuntos de dados podem ser compartilhados com outros colaboradores. Para mais informações, consulte Visão geral do compartilhamento.

A partir dos resultados de disputar seu primeiro conjunto de dados, você pode criar um novo conjunto de dados. Esse conjunto de dados é dividido em uma receita separada, cuja saída pode se tornar um terceiro conjunto de dados. Dessa forma, é possível criar sequências de conjuntos de dados.

Principais considerações:

  • O conjunto de dados importado no fluxo nº 2 não é atualizado até que você execute o job que o gera no fluxo nº 1.
  • Se o resultado do fluxo nº 1 usar o mesmo nome de arquivo a cada vez, talvez não será possível saber se os dados foram atualizados. Quando o job é executado no fluxo nº 2, ele coleta o conjunto de dados importado e executa, independentemente dos dados serem novos ou não. Alternativas:
    • No fluxo 2, crie um conjunto de dados com parâmetros, que coleta dados de origem, com alguma variação nos parâmetros. Contanto que a saída do fluxo nº 1 siga a convenção de nomenclatura do conjunto de dados parametrizado para o fluxo nº 2, será possível executar o job em dados novos sob demanda. Para mais informações, consulte Visão geral da parametrização.

    • Depois que o job no fluxo nº 2 for executado, renomeie ou remova a saída do fluxo nº 1 de local de destino. Dessa maneira, sempre que o job nº 2 for executado novamente, todos os dados que ele coletar do local de origem serão, provavelmente, mais recentes.

Consulte a página Detalhes do job.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.