Conjuntos de dados importados em comparação com os escritos em Wrangle

No Cloud Dataprep, há dois tipos de conjuntos de dados: os importados e os escritos em Wrangle.

Conjunto de dados importado

Um conjunto de dados importado é uma referência na plataforma a um conjunto de um ou mais recursos que constituem os dados de origem. Esse objeto é simplesmente um ponteiro para esses recursos.

  • Esses recursos podem incluir um ou mais arquivos, uma tabela de banco de dados ou outro objeto de armazenamento de dados.

OBSERVAÇÃO: quando os dados são transformados, todo o trabalho é feito nas versões residentes na memória do conjunto de dados importado. A origem dele permanece intacta. O Cloud Dataprep não modifica dados de origem.

Conjunto de dados escrito em Wrangle

Um conjunto de dados escrito em Wrangle é um conjunto de metadados sobre outro conjunto de dados. Ele contém os seguintes itens:

  1. Uma referência ao outro conjunto de dados, que pode ser:
    1. um conjunto de dados importado;
    2. outro conjunto de dados escrito em Wrangle.
  2. Uma receita criada no aplicativo. Essa receita é aplicada aos dados no conjunto quando:
    1. uma amostra do conjunto de dados é exibida na página "Transformer";
    2. um job é executado em todo o conjunto de dados.

OBSERVAÇÃO: a maior parte do trabalho feito no Cloud Dataprep é criar e modificar a receita do conjunto de dados escrito em Wrangle. Você pode modificar alguns metadados para cada tipo de conjunto de dados (como o nome dele).

Quando os dados são importados

Na página "Import Dataset", você pode importar dados para o aplicativo.

  1. Inicialmente, os dados importados são armazenados no aplicativo como um conjunto de dados importado (uma referência).
  2. Para começar a trabalhar com os dados no aplicativo, você precisa mover o conjunto de dados importado para um fluxo. Você pode fazer isso quando:
    1. o conjunto de dados importado for criado inicialmente;
    2. você criar um fluxo para armazenar o conjunto de dados importado.

      OBSERVAÇÃO: se você criar um fluxo para o conjunto de dados importado que já está sendo usado em um fluxo, esse conjunto permanecerá em uso no conjunto original, já que é uma simples referência aos dados de origem, que são gerenciados fora da plataforma.

  3. Depois que um conjunto de dados importado é movido para um fluxo, é possível criar um conjunto de dados escrito em Wrangle e um objeto de receita para ele. Consulte Página "Flow View".
  4. Ao selecionar o conjunto de dados escrito em Wrangle, você o abre na página "Transformer", onde começa a criar sua receita.

Quando os dados são integrados ou trocados

As seguintes operações podem ser aplicadas para alterar os dados em um conjunto de dados escrito em Wrangle com base nos dados de outro:

OperaçãoDescriçãoTipos de conjuntos de dados de origem
JoinJunta um conjunto de dados a outro com base em uma chave comum entre os doisEscrito em Wrangle
UnionConecta um ou mais conjuntos de dados a outro com base no alinhamento entre nomes de colunas ou posições no conjunto de dadosEscrito em Wrangle
LookupImporta colunas de um conjunto de dados que normalmente contém dados de referência para outro conjunto de dados escrito em Wrangle com base em uma única colunaEscrito em Wrangle
Swap

Muda a origem dos dados de um conjunto de dados escrito em Wrangle para outro conjunto de dados.

OBSERVAÇÃO: se a nova origem dos dados for um conjunto de dados escrito em Wrangle, seu conjunto de dados herdará todas as alterações subsequentes para ela. Se você adicionar ou remover etapas de receita da nova origem mais tarde, essas alterações serão refletidas em seu conjunto de dados, o que pode ter consequências inesperadas, incluindo o não funcionamento da receita.

Se a nova origem for um conjunto de dados importado, seu conjunto de dados será afetado somente se ela for substituída ou atualizada por um recurso com o mesmo nome no mesmo local. Esse tipo de mudança também afeta novas origens que são conjuntos de dados escritos em Wrangle.

Escrito em Wrangle ou importado

Identificação

Nas páginas que listam conjuntos de dados, você pode identificar um conjunto de dados importado e um escrito em Wrangle. Abaixo, você pode ver esses dois tipos listados na página "Datasets".

Dica: na página "Conjuntos de dados", preste atenção ao filtro que está sendo aplicado na parte superior da página. Você pode selecionar um filtro diferente para simplificar a visualização.

Figura: conjunto de dados importados em comparação com os escritos em Wrangle

TipoNomeEm fluxosOrigemÚltima atualização
Escrito em Wrangle

O nome inclui um link, que abre o conjunto de dados na página do Transformer.

Como um conjunto de dados escrito em Wrangle não pode ser criado fora de um fluxo, esse valor é no mínimo 1.Se um conjunto de dados escrito em Wrangle foi compartilhado em outro fluxo por meio de transformação ou troca de origem, esse valor pode aumentar.

Identifica o fluxo no local em que ele aparece.

O carimbo de data/hora para a última vez que foi aberto na página do Transformer ou que teve os metadados alterados. Normalmente, esse carimbo de data/hora será mais recente do que o do conjunto de dados importado.

ImportadoO nome é um texto simples e pode incluir uma extensão de nome de arquivo para origens de arquivo único.Esse valor pode ser 0 ou mais. Se o conjunto de dados não tiver sido usado, esse valor será 0.Indica o armazenamento de dados em que a origem do conjunto de dados importado está localizada.Após a criação, esse valor só será atualizado se o nome ou os metadados similares para este objeto forem alterados.
Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.