Visão geral da amostragem

Para evitar sobrecarregar o cliente ou impactar de modo significativo o desempenho, o Cloud Dataprep by TRIFACTA® gera uma ou mais amostras dos dados para exibição e manipulação no aplicativo cliente. Como ele é compatível com vários clientes e casos de uso, você pode alterar o tamanho e o escopo da amostra e o método usado para criá-la. Nesta seção, apresentamos informações básicas sobre como o produto gerencia a amostra de conjuntos de dados.

Como a amostra funciona

Amostra inicial

Quando um conjunto de dados é criado pela primeira vez, um job em segundo plano começa a gerar uma amostra usando o primeiro conjunto de linhas do conjunto de dados. É comum que essa amostra inicial seja gerada muito rapidamente para que você comece a trabalhar nas transformações o quanto antes.

  • A amostra padrão é a inicial.
  • Por padrão, o tamanho de cada amostra é 10 MB ou o conjunto de dados inteiro, se for menor.
  • Se a origem de dados é um diretório que contém vários arquivos, a amostra inicial para o conjunto de dados combinado é gerada do primeiro conjunto de linhas no primeiro nome de arquivo listado no diretório.
    • Se o arquivo correspondente for um arquivo Excel com várias folhas, a amostra será retirada da primeira folha do arquivo.
    • Ao converter um conjunto de dados com parâmetros, a amostra inicial carregada na página Transformer será obtida do primeiro conjunto de dados correspondente.

  • Quando uma fonte tiver sido trocada, a amostra inicial anterior se tornará inválida e uma nova amostra inicial será gerada automaticamente para você.

Como gerar amostras

É possível gerar amostras adicionais no painel de contexto ao lado direito da página Transformer. Jobs de amostra são execuções de jobs independentes. Quando um job de amostra é bem-sucedido ou apresenta falha, uma notificação é exibida.

Conforme você desenvolve sua receita, novas amostras dos dados talvez sejam necessárias. Por exemplo, você pode precisar focar nos valores incompatíveis ou inválidos exibidos em uma única coluna. Por meio da página Transformador, você pode especificar o tipo de amostra que quer criar e iniciar o job para criá-la. Esse job de amostra ocorre em segundo plano.

OBSERVAÇÃO: quando uma amostra é executada do painel Amostras, ela é iniciada com base nas etapas que levam à localização atual nas etapas da receita. Por exemplo, se sua receita incluir a união em outros conjuntos de dados, essas etapas serão executadas e a amostra será gerada com dependências nesses outros conjuntos de dados. Como resultado, se você alterar as etapas da receita que ocorrem antes da etapa em que a amostra foi gerada, a amostra poderá ser invalidada. Mais informações estão disponíveis abaixo.

Dependendo do tipo de amostra que você selecionar, ela pode ser gerada com base em um dos métodos a seguir, em ordem crescente de tempo de criação:

  1. em um conjunto especificado de linhas (primeiras linhas)
  2. em uma verificação rápida em todo o conjunto de dados
  3. em uma verificação completa de todo o conjunto de dados
Você pode criar uma nova amostra a qualquer momento. Quando uma amostra é criada, ela é armazenada no diretório no armazenamento de dados de back-end. Consulte a página "Perfil do usuário".

OBSERVAÇÃO: quando um fluxo é compartilhado, as amostras dele são compartilhadas com outros usuários. No entanto, se esses usuários não tiverem acesso aos arquivos subjacentes que retornam uma amostra, eles não terão acesso a ela e precisarão criar as próprias amostras.

Dica: se você adicionou uma etapa de transformação cara, como junção ou mesclagem complexa, é possível melhorar o desempenho da página "Transformer" gerando e usando uma nova amostra.

Para mais informações sobre como criar amostras, consulte Painel de amostras.

Observações importantes sobre amostra

  • Um novo job de amostra é executado no Cloud Dataflow, e você pode ser cobrado por isso.
  • Se o arquivo de origem estiver no formato Avro, o job do Cloud Dataflow será coletado do arquivo inteiro. Como resultado, pode haver custos de processamento adicionais. Esse é um problema conhecido.

  • Ao fazer a amostra de dados comprimidos, eles são descomprimidos e depois expandidos. Como resultado, o tamanho da amostra reflete os dados descomprimidos.
  • As alterações nas etapas anteriores que alteram o número de linhas ou colunas no conjunto de dados podem invalidar a amostra atual, o que significa que a amostra não é mais uma representação válida do estado do conjunto de dados na receita. Neste caso, o Cloud Dataprep by TRIFACTA direciona você automaticamente de volta à amostra válida coletada mais recentemente. Veja os detalhes abaixo.

Parametrização de amostras

Os parâmetros associados ao seu conjunto de dados podem ser aplicados à amostragem:

  • Parâmetros: amostras subsequentes geradas na página Transformer são amostradas em todos os conjuntos de dados correspondidos pelos valores de parâmetro.
  • Variáveis: é possível aplicar valores de modificação aos padrões das variáveis do seu conjunto de dados no momento de execução da amostra. Dessa maneira, é possível criar suas amostras a partir de arquivos de origem específicos no conjunto de dados com parâmetros.

Como escolher amostras

Depois de coletar várias amostras de diversos tipos no conjunto de dados, você poderá escolher a amostra apropriada para usar na sua tarefa atual com base nestes fatores:

  1. Se cada amostra representa bem o conjunto de dados subjacente. A amostra atual reflete os valores atípicos e as estatísticas prováveis de todo o conjunto de dados em escala?
  2. Se cada amostra aceita bem sua próxima etapa de receita. Se você estiver desenvolvendo etapas para gerenciar dados incorretos ou valores atípicos, por exemplo, talvez seja necessário escolher uma amostra diferente.

Dica: você pode começar a trabalhar em uma amostra desatualizada, mas ainda válida, enquanto gera uma nova com base na receita atual.

Limitações

  • Algumas opções de amostra avançadas estão disponíveis somente com a execução por uma verificação do conjunto de dados completo.
  • Desfazer/refazer não altera o estado da amostra, mesmo que ela se torne inválida.

Invalidação de amostra

Com cada etapa que é adicionada ou modificada no roteiro, o Cloud Dataprep by TRIFACTA verifica se a amostra atual é válida. As amostras são válidas com base no estado do fluxo e receita na etapa em que a amostra foi coletada. Se você adicionar etapas antes da etapa em que foi criada, a amostra ativa atualmente poderá ser invalidada. Por exemplo, se você alterar a origem dos dados, a amostra na página Transformer deixa de ser aplicável, e uma nova será exibida.

Dica: depois de concluir uma etapa que altera de modo significativo o número de linhas, colunas ou ambos no conjunto de dados, talvez seja necessário gerar uma nova amostra, considerando todos os custos associados à execução do job. Os custos de desempenho podem ser exibidos na página "Transformer".

OBSERVAÇÃO: se você modificar uma instrução SQL de um conjunto de dados importado, todas as amostras com base na instrução SQL antiga serão invalidadas.

  • A página "Transformer" volta a exibir a amostra mais recente válida coletada atualmente.
  • Você pode gerar uma nova amostra do mesmo tipo no painel "Amostras". Se nenhuma amostra for válida, você precisará gerar uma nova amostra antes de abrir o conjunto de dados.

  • Uma amostra invalidada é listada na guia "Indisponível". Ela não pode ser selecionada para uso. Se as etapas subsequentes a tornarem válida novamente, ela reaparecerá na guia "Disponível".

Tipos de amostra

O Cloud Dataprep by TRIFACTA atualmente aceita os métodos de amostragem a seguir.

Amostras de primeiras linhas

Essa amostra é obtida do primeiro conjunto de linhas no conjunto de dados transformado com base na localização atual do cursor na receita. As primeiras N linhas no conjunto de dados são coletadas com base nas etapas da receita até o tamanho de amostra configurado.

  • Essa amostra pode abranger vários conjuntos de dados e arquivos, dependendo de como a receita é construída.
  • A amostra de primeiras linhas é diferente da amostra inicial, que é coletada sem referência a qualquer etapa da receita.

Essas amostras são geradas rapidamente. Elas podem ser carregadas com mais rapidez no aplicativo do que amostras de outros tipos.

Dica: se você tiver encadeado várias receitas, todas as etapas de todas as receitas vinculadas precisarão ser executadas para fornecer atualizações visuais. Se você estiver com problemas de desempenho relacionados a esse tipo de atualização, poderá selecionar uma receita no meio da cadeia de receitas e desativá-la da amostra inicial para uma diferente. Quando invocadas, as receitas dos conjuntos de dados anteriores não precisam ser executadas, o que pode melhorar o desempenho.

Amostras aleatórias

Seleção aleatória de um subconjunto de linhas no conjunto de dados. Em comparação, essas amostras são de rápida geração.Você pode aplicar a verificação rápida ou completa para determinar o escopo da amostra.

Amostras baseadas em filtro

Encontre valores específicos em uma ou mais colunas. Uma amostra aleatória é gerada para o conjunto correspondente de valores.

Você precisa definir o filtro na caixa de texto "Filtro".

Amostras baseadas em anomalias

Encontre dados incompatíveis ou ausentes, ou ambos, em uma ou mais colunas.

Você especifica uma ou mais colunas e o tipo de anomalia:

  1. incompatível
  2. ausente
  3. qualquer um dos tipos acima

Se preferir, você poderá definir um filtro adicional em outras colunas.

Amostras estratificadas

Encontre todos os valores exclusivos em uma coluna e crie uma amostra que os inclua, até o limite de tamanho dela. A distribuição dos valores das colunas na amostra reflete a distribuição deles no conjunto de dados. Os valores amostrados são classificados por frequência em relação à coluna especificada.

Se preferir, você poderá aplicar um filtro nessa situação.

Amostras baseadas em cluster

A amostra de cluster coleta linhas contíguas no conjunto de dados que correspondem a uma seleção aleatória dos valores exclusivos em uma coluna. Todas as linhas correspondentes aos valores exclusivos selecionados aparecem na amostra, até o tamanho máximo dela. Essa amostra é útil para a análise de séries temporais e agregações avançadas.

Se preferir, aplique um filtro avançado à coluna.

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.