Visão geral do Objeto

Conjuntos de dados

No Cloud Dataprep, sua principal área de trabalho é o conjunto de dados. Há dois tipos de conjuntos de dados:

TipoDescriçãoEditável?Executável?
Importado

Um conjunto de dados importado é uma referência a uma origem de dados. Essa origem pode ser um arquivo, vários arquivos, uma tabela de banco de dados ou outro tipo de dados.

OBSERVAÇÃO: um conjunto de dados importado é um apontador para a origem dos dados. Ele não pode ser modificado no Cloud Dataprep.

NN
Escrito em Wrangle

Um conjunto de dados escrito em Wrangle é um objeto editável para o qual você cria as receitas com o intuito de transformar os dados de origem. Ele contém:

  • uma referência a outro conjunto de dados (importado ou escrito em Wrangle);
  • uma receita de etapas sequenciais que transformam os dados na saída desejada;
  • qualquer número de execuções de receita que trazem resultados gerados no sucesso ou na informação da tela em caso de falha.
SS

Para informações adicionais sobre as distinções entre tipos de conjuntos de dados, consulte Diferenças entre conjunto de dados importado e escrito em Wrangle.

O diagrama a seguir ilustra os objetos componentes de um conjunto de dados e como eles são criados durante o desenvolvimento do conjunto de dados no aplicativo:

Figura: objetos em um conjunto de dados

Os dados que são importados para a plataforma são referenciados em um conjunto importado. Esta origem é simplesmente uma referência aos dados originais e não é modificada ou armazenada dentro da plataforma.

Adicionar ao fluxo: um conjunto de dados importado se torna útil depois de ser adicionado a um fluxo. Um fluxo é um contêiner para armazenar conjuntos de dados importados e escritos em Wrangle. Para mais informações sobre fluxos, veja abaixo.

  • Você pode fazer isso como parte do processo de importação ou posteriormente.

Criar uma receita e um conjunto de dados escrito em Wrangle: depois que um conjunto de dados importado é adicionado a um fluxo, você pode criar um conjunto de dados escrito em Wrangle e uma receita para ele.

  • Um conjunto de dados escrito em Wrangle é um conjunto de metadados sobre o conjunto de dados importado.
    • Ao criar suas receitas, você as aplicará ao conjunto de dados escrito em Wrangle, mantendo a origem (conjunto de dados importado) intocada.
  • Uma receita identifica o conjunto sequencial de etapas que você define para limpar e transformar os dados.
    • Quando a receita é criada, ela pode conter um conjunto de etapas que realizam a análise inicial dos dados em linhas e colunas. Essas etapas podem variar de acordo com o tipo de dados de origem. Consulte Etapas de análise inicial.
    • As receitas são interpretadas pelo Cloud Dataprep e convertidas em comandos que podem ser executados em relação ao conjunto de dados escrito em Wrangle.
    • Elas são criadas usando as várias ferramentas visuais na Página "Transformer".
    • Para mais informações sobre o processo, consulte Princípios básicos de transformação.

Abrir na página "Transformer": a página "Transformer" fornece vários métodos para selecionar rapidamente e criar etapas de receita. As seleções são convertidas em etapas escritas no Wrangle (uma linguagem específica de domínio para transformação de dados).

  • Na página "Transformer", você cria as etapas da receita em relação a uma amostra do conjunto de dados.

    • Uma amostra geralmente é um subconjunto de todo o conjunto de dados. Para conjuntos de dados menores, a amostra pode ser o conjunto inteiro.
    • À medida que você constrói ou modifica a receita, os resultados de cada modificação são imediatamente refletidos nos dados amostrados. Assim, você pode rapidamente iterar nas etapas da receita dentro da mesma interface.
    • Conforme necessário, você pode gerar amostras adicionais, que podem oferecer diferentes perspectivas sobre os dados.
    • Consulte Princípios básicos da transformação.

  • Para conhecer os detalhes da sintaxe da linguagem, consulte Linguagem Wrangle.

Executar jobs: quando estiver satisfeito com a receita que você criou na página "Transformer", você pode executar um job. Um trabalho pode ser composto por um ou pelos dois tipos de job a seguir:

  • Job de transformação: executa o conjunto de etapas de receita que você definiu em suas amostras, gerando o conjunto de resultados transformado em todo o conjunto de dados.
  • Job de perfil: opcionalmente, você pode escolher gerar um perfil visual dos resultados do seu trabalho de transformação. Este perfil visual pode fornecer feedback importante sobre a qualidade dos dados e pode ser uma chave para o aprimoramento da sua receita.
  • Os jobs são colocados em fila para execução pela plataforma, e você pode monitorar o progresso por meio do aplicativo. Consulte a página "Jobs".
  • Quando um trabalho é concluído, você pode rever os dados resultantes e identificar os que ainda precisam ser consertados. Consulte a página "Resultados do job".
  • Para mais informações sobre o processo, consulte Princípios básicos da execução de jobs.

Fluxos

Um fluxo é um contêiner para manter um ou mais conjuntos de dados e os objetos associados a eles. Um conjunto de dados escrito em Wrangle precisa estar contido em um fluxo.

O diagrama a seguir ilustra a flexibilidade das relações de objeto dentro de um fluxo. Neste exemplo, os quatro primeiros conjuntos de dados são alimentados no conjunto de dados escrito em Wrangle 3 (W-Dataset 3), a partir do qual são geradas as saídas finais. O resultado 4 é gerado a partir de uma única combinação de conjunto de dados importado/conjunto de dados escrito em Wrangle.

Figura: exemplo de fluxo

Conjuntos de dadosDescrição
W-Dataset 1

Os resultados do job são usados para criar um novo conjunto de dados importado (I-Dataset 2).

W-Dataset 2O I-Dataset 2 é adicionado diretamente ao W-Dataset 2 (conjunto de dados escrito em Wrangle 2) pela página "Transformer". Consulte a página "Transformer".
W-Dataset 3

W-Dataset 2 está incluído no W-Dataset 3. Esta etapa poderia ser uma declaração de combinação de join, union ou semelhante na Recipe 3.

W-Dataset 4Mesmo sendo armazenado no mesmo fluxo, o W-Dataset 4 é independente dos outros conjuntos de dados.

Os fluxos são criados na página "Flows". Consulte a página "Fluxos".

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.