Validar os dados

O processo de limpeza, aprimoramento e transformação de dados pode gerar alterações significativas, sendo que algumas podem não ser intencionais. Nesta página, você verá algumas dicas e técnicas para validar o conjunto de dados, do início ao fim, em relação a suas iniciativas de conversão de dados.

A validação de dados pode ser dividida nas seguintes categorias:

  • Consistência: os dados se encaixam nos valores esperados para eles? Os valores do campo correspondem ao tipo de dados da coluna? Os valores estão dentro dos limites aceitáveis? As linhas são únicas? Estão duplicadas?
  • Abrangência: todos os valores esperados estão incluídos nos dados? Há valores faltando em alguns campos? Há valores esperados que não estão presentes no conjunto de dados?

Antes de começar

Antes de começar a construir o canal de dados, identifique os padrões de qualidade de dados.

OBSERVAÇÃO: dependendo do sistema de origem, é possível gerar relatórios de qualidade de dados dentro dele. Esses relatórios podem ser usados como base para validar seu trabalho no Cloud Dataprep by TRIFACTA® INC..

Se o sistema de origem não permitir a geração desses relatórios, considere a criação do perfil do conjunto de dados assim que você carregar dados no Cloud Dataprep by TRIFACTA INC..

Verificar os requisitos downstream

Antes de começar a modificar o conjunto de dados, revise as colunas e os intervalos de valores nas colunas esperadas pelo consumidor downstream do conjunto de dados. Uma revisão rápida pode fornecer orientação para identificar as áreas-chave do conjunto de dados que exigem validação de ponta a ponta.

Identificar campos importantes

Para conjuntos de dados com muitas colunas, pode ser problemático aplicar uma validação consistente em todas as colunas. Nessas situações, talvez seja necessário decidir as colunas cuja consistência, abrangência e precisão são mais importantes.

Criar o perfil dos dados de origem

Antes de começar a criar a receita no conjunto de dados, pode ser uma boa ideia criar um perfil visual dos dados de origem. Esse processo envolve a criação de uma receita mínima em um conjunto de dados depois de tê-lo carregado na página "Transformer". Em seguida, você executa um trabalho para gerar esse perfil, que pode ser usado como base para validar os dados e como assistente na depuração da origem de todos os problemas de dados que você descobrir.

O perfil visual também gera estatísticas sobre os valores em cada coluna no conjunto de dados. Use essas informações estatísticas para avaliar a qualidade geral dos dados de origem. Essa informação de perfil visual faz parte do registro do trabalho, que permanece no sistema após a execução.

Para mais informações, consulte Criar o perfil dos dados de origem.

Gerar uma nova amostra aleatória

Quando um conjunto de dados é carregado primeiro no Transformer, a amostragem padrão coleta as primeiras N linhas de dados, dependendo do tamanho e da densidade de cada linha. No entanto, o conjunto de dados pode conter variações que não estão presentes nessa primeira amostra. Para mais informações, consulte Painel de amostras.

Validar a consistência

O Cloud Dataprep by TRIFACTA INC. fornece recursos úteis para verificar se os dados estão consistentes nas linhas. Com algumas etapas de roteiro, é possível criar verificações de validação personalizadas para confirmar os valores.

Valores não correspondentes

Na barra de qualidade de dados na parte superior de uma coluna, você pode rever os valores válidos (verdes), sem correspondência (vermelhos) e ausentes (pretos).

Quando você clica na barra vermelha:

  • as linhas que contêm valores sem correspondência são destacadas na grade de dados;
  • o aplicativo fornece sugestões na forma de cartões de transformação contendo maneiras de transformar os dados.

É possível que você esteja indeciso sobre o que fazer com os dados. Se quiser examinar todas as linhas juntas, você pode inserir no roteiro uma transformação como a seguinte:

Nome da transformação New formula
Parâmetro: tipo de fórmula Single row formula
Parâmetro: fórmula ismismatched(Primary_Website_or_URL, ['Url'])
Parâmetro: nome da nova coluna mismatched_Primary_Website_or_URL

A instrução acima verifica os valores na coluna Primary_Website_or_URL em comparação com o tipo de dados Url. Se o valor na coluna de origem não é um URL válido, o novo valor da coluna é true.

Valores remotos

Por meio do painel "Detalhes da coluna", você pode revisar informações estatísticas sobre colunas individuais. Para abri-lo, selecione Detalhes da coluna... no menu suspenso de uma coluna.

Na área "Resumo", você pode analisar a contagem de valores atípicos. No Cloud Dataprep by TRIFACTA INC., um valor atípico é definido como qualquer valor que esteja a mais de quatro desvios padrão da média para o conjunto de valores de coluna.

O painel "Detalhes da coluna" também contém:

  • contagens de valores válidos, únicos, sem correspondência e ausentes;
  • detalhamento por quartil e informações sobre valores máximos, mínimos e médios.

Para mais informações, consulte o Painel "Detalhes da coluna".

As estatísticas disponíveis dependem do tipo de dados da coluna. Para mais informações, consulte Localizar valores atípicos.

Verificações do intervalo de dados

Intervalos de desvio padrão

Imagine este exemplo: o intervalo de valores não corresponde à definição de um outlier no aplicativo, e você precisa identificar valores que estão a mais de cinco desvios padrão da média.

Crie transformações personalizadas para avaliar os desvios padrão da média em uma coluna específica. Para mais informações, consulte Localizar valores atípicos.

Intervalos de valores fixos

Se for necessário testar uma coluna de valores em comparação com dois valores fixos, você poderá usar a transformação abaixo. Esses testes avaliam um valor de coluna. Se o valor na coluna Rating for inferior a 10 ou superior a 90, o valor da coluna gerada é true.

Nome da transformação New formula
Parâmetro: tipo de fórmula Single row formula
Parâmetro: fórmula ((Rating < 10) || (Rating > 90))
Parâmetro: nome da nova coluna Outlier_Rating

Linhas duplicadas

Linhas inteiras podem ser testadas em busca de duplicação. A transformação deduplicate permite remover linhas idênticas. Observe que as diferenças de espaços em branco e maiúsculas/minúsculas são avaliadas como linhas diferentes. Para mais informações, consulte Eliminar duplicação de dados.

Verificações de singularidade

Para uma coluna individual, o painel de detalhes da coluna contém um indicador do número de valores exclusivos nela. Se esse valor não corresponder à contagem de valores e à contagem de linhas na amostra, alguns valores estão duplicados. Lembre-se que essas contagens se aplicam apenas à amostra na página "Transformer" e podem não ser medições consistentes em todo o conjunto de dados. Consulte Painel "Detalhes da coluna".

Você pode realizar testes específicos quanto à singularidade de valores individuais. Para mais informações, consulte Eliminar duplicação de dados.

Verificações de caracteres permitidos

É possível testar a presença de caracteres permitidos em colunas individuais usando um teste de expressão regular. A transformação a seguir é avaliada como true se todos os caracteres em um campo de coluna forem alfanuméricos ou um caractere de espaço:

Nome da transformação New formula
Parâmetro: tipo de fórmula Single row formula
Parâmetro: fórmula MATCHES(MarketName, /^[a-zA-Z0-9 ]*$/)

Você pode adicionar mais caracteres permitidos dentro dos colchetes. Para mais informações, consulte Correspondência de texto.

Validar abrangência

O Cloud Dataprep by TRIFACTA INC. fornece métodos fáceis para identificar se as células estão com ausência de valores ou contêm valores nulos. Também é possível criar pesquisas para identificar se os valores não estão representados no conjunto de dados.

Valores ausentes

Na parte superior de cada coluna, a barra de qualidade de dados inclui uma barra preta indicando o número de células na coluna que não têm valores. Esse conjunto inclui valores ausentes.

Clique na barra preta para solicitar um conjunto de cartões de sugestão com o intuito de processar esses valores.

Para mais informações, consulte Localizar dados ausentes.

Valores nulos

Ainda que os valores nulos entrem na mesma categoria dos ausentes, eles não são iguais. Em alguns casos, pode ser importante distinguir os valores nulos reais dentro do conjunto de dados, e vários Wrangle podem ajudar a encontrá-los. Consulte Gerenciar valores nulos.

Valores não representados

Você também pode testar se o conjunto de dados contém pelo menos uma instância de um conjunto de valores.

Por exemplo, se o conjunto de dados contém empresas dos Estados Unidos, você pode verificar se cada estado está representado no conjunto de dados.

Etapas:

  1. Crie um conjunto de dados de referência que contenha uma única instância de cada item que você está verificando. Neste exemplo, seria um arquivo CSV simples com o nome de cada estado em uma linha separada.

    Dica: para o segundo conjunto de dados, é possível adicionar uma segunda coluna contendo o valor true, o que permite manter dados de validação separados das colunas que você mesclar.

  2. Adicione esse arquivo CSV como um novo conjunto de dados ao fluxo.
  3. Abra o conjunto de dados de origem. Na caixa de texto "Transformação", no painel de receita, digite join.
  4. No painel "Mesclagem", faça o seguinte:
    1. Selecione o conjunto de dados de referência que você acabou de criar. Clique em Aceitar. Clique em Avançar.
    2. Selecione o tipo de união a executar:
      1. Right outer join: selecione esse tipo de união se quiser excluir linhas do conjunto de dados de origem que não tenham um valor de chave no conjunto de dados de referência. No exemplo, todas as linhas que não têm um valor na coluna "State" serão removidas do conjunto de dados gerado.
      2. Full outer join: selecione esse tipo para preservar todos os dados, incluindo as linhas na origem que não têm valores de chave.
    3. Selecione os dois campos que usará para unir. No exemplo, você selecionaria os dois campos que identificam valores de estado. Clique em Avançar.
    4. Selecione os campos que você quer incluir no conjunto de dados final. Clique em Revisar.
    5. Clique em Adicionar à receita.
  5. O conjunto de dados gerado inclui todos os campos que você especificou.
  6. Para um dos valores de chave, clique na barra preta e selecione o link referente ao número de linhas afetadas, que as carrega na grade de dados. Revise os valores ausentes em cada coluna de chave.
  7. Para remover essas linhas, selecione a categoria do valor ausente na barra de qualidade de dados da coluna apropriada e aplique uma instrução de exclusão.

  8. O comando gerado será semelhante a este:

    Nome da transformação Delete rows
    Parâmetro: condição ISMISSING([State])

Para mais informações, consulte o painel "Mesclagem".

Após a transformação

Gerar perfil de saída

Depois de concluir a receita, é importante gerar um perfil com o trabalho executado. Você pode abrir esse perfil e aquele criado para os dados de origem em guias de navegador separadas para avaliar se o restante dos dados está consistente e completo do início ao fim do processo de conversão.

OBSERVAÇÃO: compare as informações estatísticas no perfil gerado às estatísticas geradas a partir da origem, para que você possa identificar se as mudanças introduziram alterações indesejadas nesses valores.

Decisões

Depois de realizar as verificações de validação de dados, será necessário tomar algumas decisões sobre como resolver alguns problemas encontrados:

  • Alguns problemas nos dados podem ter sido gerados no sistema de origem. Se você planeja usar fontes adicionais desse sistema, tente corrigir esses problemas na origem e, se necessário, regenerar os dados de origem.
  • Alguns problemas de qualidade de dados podem ser ignorados. Para o bem dos consumidores downstream dos dados, é possível fazer anotações no conjunto de dados com informações sobre possíveis problemas. Diga aos consumidores como identificar essa informação.
Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Documentação do Google Cloud Dataprep
Precisa de ajuda? Acesse nossa página de suporte.