Usar a qualidade de dados automática

Nesta página, descrevemos como criar uma verificação de qualidade de dados do Dataplex.

Saiba mais sobre as verificações de qualidade de dados em Sobre a qualidade de dados automática.

Antes de começar

  1. Ativar a API Dataplex.

    Ativar a API

  2. Opcional: se você quiser que o Dataplex gere recomendações para regras de qualidade de dados com base nos resultados de uma verificação de criação de perfil de dados, Crie e execute a verificação de criação de perfil de dados.

Permissões

  • Para executar uma verificação de qualidade de dados em uma tabela do BigQuery, você precisa permissão para ler a tabela do BigQuery e permissão para criar um job do BigQuery no projeto usado para verificar a tabela.

  • Se a tabela do BigQuery e a verificação de qualidade de dados estiverem projetos diferentes, dê ao serviço Dataplex do projeto que contém a permissão de leitura da verificação de qualidade de dados tabela correspondente do BigQuery.

  • Se as regras de qualidade de dados se referirem a outras tabelas, a configuração a conta de serviço precisa ter permissões de leitura nas mesmas tabelas.

  • Para ter as permissões necessárias para exportar os resultados da verificação para um tabela do BigQuery, peça ao administrador para conceder A conta de serviço do Dataplex para o Papel do IAM de Editor de dados (roles/bigquery.dataEditor) na e uma tabela de resultados. Isso concede as seguintes permissões:

    • bigquery.datasets.get
    • bigquery.tables.create
    • bigquery.tables.get
    • bigquery.tables.getData
    • bigquery.tables.update
    • bigquery.tables.updateData
  • Se os dados do BigQuery estiverem organizados em um Dataplex data lake, conceda à conta de serviço do Dataplex papéis roles/dataplex.metadataReader e roles/dataplex.viewer. Como alternativa, você precisa de todas as permissões a seguir:

    • dataplex.lakes.list
    • dataplex.lakes.get
    • dataplex.zones.list
    • dataplex.zones.get
    • dataplex.entities.list
    • dataplex.entities.get
    • dataplex.operations.get
  • Se você estiver verificando uma tabela externa do BigQuery no Cloud Storage, conceda à conta de serviço do Dataplex Papel roles/storage.objectViewer do Cloud Storage para o bucket. Como alternativa, atribua à conta de serviço do Dataplex as seguintes permissões:

    • storage.buckets.get
    • storage.objects.get
  • Se você quiser publicar os resultados da verificação de qualidade de dados no as páginas do BigQuery e do Data Catalog na console do Google Cloud para as tabelas de origem, é preciso ter o Editor de dados do BigQuery (roles/bigquery.dataEditor) papel do IAM ou a permissão bigquery.tables.update para a tabela.

  • Se você precisar acessar colunas protegidas pelas políticas de acesso no nível da coluna do BigQuery, atribua permissões da conta de serviço do Dataplex a elas. O usuário que cria ou atualiza uma verificação de dados também precisa de permissões para as colunas.

  • Se uma tabela tiver políticas de acesso no nível da linha do BigQuery ativadas, só será possível verificar as linhas visíveis para a conta de serviço do Dataplex. Observe que os privilégios de acesso do usuário individual não são avaliados para as políticas no nível da linha.

Permissões e papéis da verificação de dados

Para usar a qualidade automática de dados, você precisa das permissões para executar verificações de dados ou um papel com permissões predefinidas para executar verificações de dados.

A tabela abaixo lista as permissões DataScan:

Nome da permissão Concede permissão para fazer o seguinte:
dataplex.datascans.create Criar um DataScan
dataplex.datascans.delete Excluir um DataScan
dataplex.datascans.get Conferir metadados operacionais, como ID ou programação, mas não resultados e regras
dataplex.datascans.getData Mais detalhes de DataScan, incluindo regras e resultados
dataplex.datascans.list Lista DataScan
dataplex.datascans.run Executar um DataScan
dataplex.datascans.update Atualizar a descrição de um DataScan
dataplex.datascans.getIamPolicy Consultar as permissões atuais do IAM na verificação
dataplex.datascans.setIamPolicy Definir permissões do IAM na verificação

Conceda aos usuários um ou mais dos seguintes papéis:

  • roles/dataplex.dataScanAdmin: acesso total a DataScan recursos.
  • roles/dataplex.dataScanEditor: acesso de gravação aos recursos de DataScan.
  • roles/dataplex.dataScanViewer: acesso de leitura a DataScan recursos, exceto regras e resultados.
  • roles/dataplex.dataScanDataViewer: acesso de leitura a recursos de DataScan. incluindo regras e resultados.

Definir regras de qualidade de dados

É possível definir regras de qualidade de dados usando regras integradas ou de SQL personalizada. Se você estiver usando a Google Cloud CLI, poderá definir essas regras em um arquivo JSON ou YAML.

Os exemplos nas seções a seguir mostram como definir vários parâmetros de qualidade regras de firewall. As regras validam uma tabela de amostra que contém dados sobre transações de clientes. Suponha que a tabela tenha o seguinte esquema:

Nome da coluna Tipo de coluna Descrição da coluna
transaction_timestamp Carimbo de data/hora Carimbo de data/hora da transação. A tabela é particionada nesse campo.
customer_id String Um ID de cliente no formato de 8 letras seguidas por 16 dígitos.
transaction_id String O ID da transação precisa ser exclusivo na tabela.
currency_id String Uma das moedas aceitas.O tipo de moeda precisa corresponder a uma das moedas disponíveis na tabela de dimensões dim_currency.
amount float Valor da transação.
discount_pct float Porcentagem do desconto. Esse valor precisa estar entre 0 e 100.

Definir regras de qualidade de dados usando tipos de regras integrados

Os exemplos de regras a seguir são baseados nos tipos de regras integrados. É possível criar regras com base em tipos de regras integradas usando o console do Google Cloud ou a API. O Dataplex pode recomendar algumas dessas regras.

Nome da coluna Tipo de regra Dimensão sugerida Parâmetros de regra
transaction_id Verificação de exclusividade Exclusividade Threshold: Not Applicable
amount Verificação de valores nulos Integridade Threshold: 100%
customer_id Verificação de regex (expressão regular) Validade Expressão regular: ^[0-9]{8}[a-zA-Z]{16}$
Limite: 100%
currency_id Verificação do valor definido Validade Conjunto de: USD,JPY,INR,GBP,CAN
Limite: 100%

Definir regras de qualidade de dados usando regras SQL personalizadas

Para criar regras SQL personalizadas, use o seguinte framework:

  • Ao criar uma regra que avalia uma linha por vez, crie uma expressão que gera o número de linhas bem-sucedidas quando o Dataplex avalia a consulta SELECT COUNTIF(CUSTOM_SQL_EXPRESSION) FROM TABLE. O Dataplex verifica o número de linhas bem-sucedidas em relação o limite mínimo.

  • Quando você cria uma regra que avalia as linhas ou usa uma tabela , crie uma expressão que retorne sucesso ou falha quando O Dataplex avalia a consulta SELECT IF(CUSTOM_SQL_EXPRESSION) FROM TABLE:

  • Ao criar uma regra que avalia o estado inválido de um conjunto de dados, forneça uma instrução que retorna linhas inválidas. Se alguma linha for retornada, a regra falhar. Omita o ponto e vírgula final da instrução SQL.

  • Para fazer referência a uma tabela de fonte de dados e todos os filtros de pré-condição dela, usando o parâmetro de referência de dados ${data()} em uma regra, em vez de mencionando explicitamente a tabela de origem e seus filtros. Exemplos de os filtros de pré-condição incluem filtros de linha, porcentagens de amostragem e filtros. O parâmetro ${data()} diferencia maiúsculas de minúsculas.

As regras de exemplo a seguir são baseadas em regras SQL personalizadas.

Tipo de regra Descrição da regra Expressão SQL
Condição da linha Verifica se o valor do discount_pct está entre 0 e 100. 0 <discount_pct E discount_pct < 100
Condição da linha Faça a verificação de referência para confirmar que currency_id é um dos às moedas aceitas. currency_id in (select id from my_project_id.dim_dataset.dim_currency)
Condição da tabela A expressão SQL agregada que verifica se a média de discount_pct está entre 30% e 50%. 30<avg(discount) AND avg(discount) <50
Condição da linha Verifica se uma data não está no futuro. TIMESTAMP(transaction_timestamp) < CURRENT_TIMESTAMP()
Condição da tabela Uma função definida pelo usuário (UDF) do BigQuery para verificar se o valor médio da transação é menor que um valor por país. Crie a UDF (em JavaScript) executando o seguinte comando:
        CREATE OR REPLACE FUNCTION
        myProject.myDataset.average_by_country (
          country STRING, average FLOAT64)
        RETURNS BOOL LANGUAGE js AS R"""
        if (country = "CAN" && average < 5000){
          return 1
        } else if (country = "IND" && average < 1000){
          return 1
        } else { return 0 }
        """;
       
Exemplo de regra para verificar o valor médio da transação para country=CAN.
        myProject.myDataset.average_by_country(
        "CAN",
        (SELECT avg(amount) FROM
          myProject.myDataset.transactions_table
            WHERE currency_id = 'CAN'
        ))
      
Condição da tabela Um BigQuery ML cláusula de previsão para identificar anomalias em discount_pct. Ele verifica se um desconto deve ser aplicado com base em customer, currency e transaction. A regra verifica se previsão corresponde ao valor real pelo menos 99% das vezes. Suposição: os O modelo de ML é criado antes de usar a regra. Criar o modelo de ML usando a seguinte comando:
  CREATE MODEL
  model-project-id.dataset-id.model-name
        OPTIONS(model_type='logistic_reg') AS
  SELECT
  IF(discount_pct IS NULL, 0, 1) AS label,
  IFNULL(customer_id, "") AS customer,
  IFNULL(currency_id, "") AS currency,
  IFNULL(amount, 0.0) AS amount
  FROM
  `data-project-id.dataset-id.table-names`
  WHERE transaction_timestamp < '2022-01-01';
  
A regra a seguir verifica se a precisão da previsão é maior que 99%.
      SELECT
        accuracy > 0.99
      FROM
       ML.EVALUATE
        (MODEL model-project-id.dataset-id.model-name,
         (
          SELECT
            customer_id,
            currency_id,
            amount,
            discount_pct
          FROM
            data-project-id.dataset-id.table-names
          WHERE transaction_timestamp > '2022-01-01';
         )
        )
    
Condição da linha Uma previsão do BigQuery ML para identificar anomalias em discount_pct. A função verifica se um desconto deve ser aplicado com base em customer; currency e transaction. A regra identifica todas as ocorrências em que a previsão não correspondeu. Suposição: o modelo de ML é criado antes de usar a regra. Criar o ML usando o seguinte comando:
  CREATE MODEL
  model-project-id.dataset-id.model-name
        OPTIONS(model_type='logistic_reg') AS
  SELECT
  IF(discount_pct IS NULL, 0, 1) AS label,
  IFNULL(customer_id, "") AS customer,
  IFNULL(currency_id, "") AS currency,
  IFNULL(amount, 0.0) AS amount
  FROM
  `data-project-id.dataset-id.table-names`
  WHERE transaction_timestamp < '2022-01-01';
  
A regra a seguir verifica se a previsão de desconto corresponde ao real para cada linha.
       IF(discount_pct > 0, 1, 0)
          =(SELECT predicted_label FROM
           ML.PREDICT(
            MODEL model-project-id.dataset-id.model-name,
              (
                SELECT
                  customer_id,
                  currency_id,
                  amount,
                  discount_pct
                FROM
                  data-project-id.dataset-id.table-names AS t
                    WHERE t.transaction_timestamp =
                     transaction_timestamp
                   LIMIT 1
              )
            )
         )
    
Declaração de SQL Valida se o valor de discount_pct é maior que 30% no dia verificando se existem linhas com uma porcentagem de desconto menor que ou igual a 30. SELECT * FROM my_project_id.dim_dataset.dim_currency WHERE discount_pct <= 30 AND transaction_timestamp >= current_date()
declaração SQL (com parâmetro de referência de dados)

Verifica se o discount_pct é maior que 30% para todas as aceitas atualmente.

O filtro de data transaction_timestamp >= current_date() está aplicado como um filtro de linha na tabela da fonte de dados.

O parâmetro de referência de dados ${data()} atua como uma espaço reservado para my_project_id.dim_dataset.dim_currency WHERE transaction_timestamp >= current_date() e aplica o filtro de linha.

SELECT * FROM ${data()} WHERE discount_pct > 30

Definir regras de qualidade de dados usando a CLI gcloud

O arquivo YAML de exemplo a seguir usa algumas regras iguais às do regras de exemplo usando tipos integrados e o exemplos de regras SQL personalizadas. É possível usar esse arquivo YAML como entrada para o comando da CLI gcloud.

rules:
- uniquenessExpectation: {}
  column: transaction_id
  dimension: UNIQUENESS
- nonNullExpectation: {}
  column: amount
  dimension: COMPLETENESS
  threshold: 1
- regexExpectation:
    regex: '^[0-9]{8}[a-zA-Z]{16}$'
  column : customer_id
  ignoreNull : true
  dimension : VALIDITY
  threshold : 1
- setExpectation :
    values :
    - 'USD'
    - 'JPY'
    - 'INR'
    - 'GBP'
    - 'CAN'
  column : currency_id
  ignoreNull : true
  dimension : VALIDITY
  threshold : 1
- rangeExpectation:
    minValue : '0'
    maxValue : '100'
  column : discount_pct
  ignoreNull : true
  dimension : VALIDITY
  threshold : 1
- rowConditionExpectation:
    sqlExpression : 0 < `discount_pct` AND `discount_pct` < 100
  column: discount_pct
  dimension: VALIDITY
  threshold: 1
- rowConditionExpectation:
    sqlExpression : currency_id in (select id from `my_project_id.dim_dataset.dim_currency`)
  column: currency_id
  dimension: VALIDITY
  threshold: 1
- tableConditionExpectation:
    sqlExpression : 30 < avg(discount_pct) AND avg(discount_pct) < 50
  dimension: VALIDITY
- rowConditionExpectation:
    sqlExpression : TIMESTAMP(transaction_timestamp) < CURRENT_TIMESTAMP()
  column: transaction_timestamp
  dimension: VALIDITY
  threshold: 1
- sqlAssertion:
    sqlStatement : SELECT * FROM `my_project_id.dim_dataset.dim_currency` WHERE discount_pct > 100
  dimension: VALIDITY

Criar uma verificação de qualidade de dados

Console

  1. No console do Google Cloud, acesse a página Qualidade de dados.

    Acessar "Qualidade de dados"

  2. Clique em Criar verificação de qualidade de dados.

  3. Na janela Definir verificação, preencha os seguintes campos:

    1. Digite um Nome de exibição.

    2. O ID de verificação será gerado automaticamente se você não fornecer um ID próprio. Consulte a convenção de nomenclatura de recursos.

    3. Opcional: digite uma Descrição.

    4. No campo Tabela, clique em Procurar, escolha sua tabela e clique em Selecionar. O Dataplex só oferece suporte a padrões tabelas do BigQuery.

      Para tabelas em conjuntos de dados multirregionais, escolha uma região onde criar na verificação de dados.

      Para navegar pelas tabelas organizadas no lake do Dataplex, Clique em Procurar nos lakes do Dataplex.

    5. No campo Escopo, escolha Incremental ou Dados inteiros.

      • Se você escolher Incremental: no campo Coluna de carimbo de data/hora, faça o seguinte: selecione uma coluna do tipo DATE ou TIMESTAMP em seu do tabela do BigQuery que aumenta monotonicamente e pode ser usados para identificar novos registros. Pode ser uma coluna que particiona tabela.
    6. Opcional: adicione rótulos. Rótulos são pares de key:value que permitem agrupar objetos relacionados entre si ou com outros recursos do Google Cloud.

    7. Para filtrar os dados, clique em Filtros. Selecione o Filtro de linhas. O valor de entrada do filtro de linha precisa ser um SQL válido que pode ser usada como parte de uma cláusula WHERE Sintaxe SQL padrão do BigQuery. Por exemplo, col1 >= 0. O filtro pode ser uma combinação de várias condições de coluna. Por exemplo, col1 >= 0 AND col2 < 10.

    8. Para criar uma amostra dos seus dados, na lista Tamanho da amostragem, selecione um a porcentagem de amostragem. Escolha um valor de porcentagem entre 0,0% e 100,0% com até três dígitos decimais. Para dispositivos maiores conjuntos de dados, escolha uma porcentagem de amostragem mais baixa. Por exemplo, para um Tabela de aproximadamente 1 PB. Se você inserir um valor entre 0,1% e 1,0%, O Dataplex faz amostras entre 1 e 10 TB de dados. Para verificações de dados incrementais, o Dataplex aplica a amostragem incremento mais recente.

    9. Para publicar os resultados da verificação de qualidade de dados no as páginas do BigQuery e do Data Catalog na no console do Google Cloud para a tabela de origem, Publique os resultados no BigQuery e Caixa de seleção da interface do Dataplex Catalog. Os resultados da verificação mais recente podem ser acessados na guia Qualidade de dados no Páginas do BigQuery e do Data Catalog para a origem tabela. Para permitir que os usuários acessem os resultados da verificação publicados, consulte Compartilhar os resultados publicados. A opção de publicação pode não estar disponível nos seguintes casos:

      • Você não tem as permissões necessárias na tabela.
      • Outra verificação de qualidade de dados está configurada para publicar resultados.

      Para mais informações sobre as permissões necessárias para visualizar o resultados publicados, consulte Permissões.

    10. Clique em Continuar.

  4. Na janela Programar, escolha uma das seguintes opções:

    • Repetir: execute o job de verificação de qualidade de dados em uma programação: diariamente, semanal, mensal ou personalizado. Especifique com que frequência a verificação é executada e em que horário. Se você escolher personalizado, use o cron. para especificar a programação.

    • Sob demanda: execute o job de verificação de qualidade de dados sob demanda.

    Clique em Continuar.

  5. Na janela Regras de qualidade de dados, defina as regras para configurar para esta verificação da qualidade de dados. Clique em Adicionar regras e escolha uma das opções a seguir.

    • Recomendações com base no perfil: crie regras na com base em uma verificação de criação de perfil de dados atual.

      1. Escolher colunas: selecione as colunas para ver as regras recomendadas.

      2. Verificar projeto: recomendações com base em dados atuais a verificação de criação de perfil. Por padrão, o Dataplex seleciona a criação de perfil do mesmo projeto em que você está criando os dados verificação de qualidade. Se a verificação foi criada em outro projeto, especifique o projeto de onde as verificações de perfil serão extraídas.

      3. Escolha os resultados do perfil: com base nas colunas e no projeto que você selecionar, vários resultados de perfil serão exibidos.

      4. Selecione um ou mais resultados de perfil e clique em OK. Isso preenche uma lista de regras para seleção.

      5. Para selecionar as regras que você quer editar, marque as caixas e clique em Selecionar. Depois de selecionadas, as regras são adicionadas à sua regra atual lista. Em seguida, você pode editar as regras.

    • Tipos de regra integrados: crie regras com base em regras predefinidas. Veja a lista de regras predefinidas.

      1. Escolher colunas: selecione as colunas para selecionar regras.

      2. Escolha os tipos de regras: com base nas colunas selecionadas, vários tipos de regras aparecem para seleção.

      3. Selecione um ou mais tipos de regra e clique em OK. Isso preenche uma lista de regras para seleção.

      4. Marque as caixas para escolher as regras que você quer editar e clique em Selecionar. Depois de selecionadas, as regras são adicionadas à sua lista de regras atual. Depois, edite as regras.

    • Regra de verificação de linha do SQL: criar uma regra SQL personalizada para aplicar a cada linha (SQL personalizado) regra de verificação de linha).

      1. Em Dimensão, escolha uma dimensão.

      2. Em Limite de aprovação, escolha uma porcentagem de registros que precisam passar na verificação.

      3. Em Nome da coluna, escolha uma coluna.

      4. No campo Fornecer uma expressão SQL, insira uma expressão SQL. que resulte em um booleano true (aprovado) ou false (reprovado). Para mais informações, consulte Tipos de regras SQL personalizadas com suporte e os exemplos em Definir regras de qualidade de dados deste documento.

      5. Clique em Adicionar.

    • Regra de verificação agregada do SQL: criar um SQL personalizado regra de condição de tabela.

      1. Em Dimensão, escolha uma dimensão.

      2. Em Nome da coluna, escolha uma coluna.

      3. No campo Fornecer uma expressão SQL, insira uma expressão SQL. que resulte em um booleano true (aprovado) ou false (reprovado). Para mais informações, consulte Tipos de regras SQL personalizadas com suporte e os exemplos em Definir regras de qualidade de dados deste documento.

      4. Clique em Adicionar.

    • Regra de declaração SQL: criar uma regra de declaração SQL personalizada para verificar para um estado inválido dos dados.

      1. Em Dimensão, escolha uma dimensão.

      2. Opcional: em Nome da coluna, escolha uma coluna.

      3. No campo Fornecer uma instrução SQL, insira uma instrução SQL. que retorna linhas que correspondem ao estado inválido. Se alguma linha for retornado, essa regra falhará. Omita o ponto e vírgula final do SQL . Para mais informações, consulte Tipos de regras SQL personalizadas com suporte e os exemplos em Definir regras de qualidade de dados deste documento.

      4. Clique em Adicionar.

    O Dataplex permite nomes personalizados para regras de qualidade de dados para monitoramento e alerta. Para qualquer regra de qualidade de dados, atribuir um nome e uma descrição à regra personalizada. Para isso, editar uma regra e especificar os seguintes detalhes:

    • Nome da regra: insira um nome personalizado para a regra com até 63 caracteres. O nome da regra pode incluir letras (a-z, A-Z), dígitos (0-9) e hífens (-) e precisa começar com uma letra e terminar com um número ou uma letra.
    • Descrição: insira uma descrição para a regra com no máximo de 1.024 caracteres.

    Clique em Continuar.

  6. Opcional: exportar os resultados da verificação para um padrão do BigQuery tabela. Clique em Procurar para selecionar um BigQuery para armazenar os resultados da verificação da qualidade de dados.

    Se a tabela especificada não existir, o Dataplex a criará para para você. Se você estiver usando uma tabela existente, verifique se ela é compatível com o esquema de exportação da tabela.

  7. Clique em Criar.

    Após a criação da verificação, você pode executá-la a qualquer momento clicando Executar agora.

gcloud

Para criar uma verificação de qualidade de dados, use o comando gcloud dataplex datascans create data-quality.

Se os dados de origem estiverem organizados em um lake do Dataplex, inclua o Sinalização --data-source-entity:

gcloud dataplex datascans create data-quality DATASCAN \
    --location=LOCATION \
    --data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
    --data-source-entity=DATA_SOURCE_ENTITY

Se os dados de origem não estiverem organizados em um lake do Dataplex, inclua a sinalização --data-source-resource:

gcloud dataplex datascans create data-quality DATASCAN \
    --location=LOCATION \
    --data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
    --data-source-resource=DATA_SOURCE_RESOURCE

Substitua as seguintes variáveis:

  • DATASCAN: o nome da verificação de qualidade de dados.
  • LOCATION: a região do Google Cloud em que criar a verificação de qualidade de dados.
  • DATA_QUALITY_SPEC_FILE: o caminho para o arquivo JSON ou Arquivo YAML contendo as especificações para a verificação de qualidade de dados. O arquivo pode ser um arquivo local ou um caminho do Cloud Storage com o prefixo gs://. Use esse arquivo para especificar as regras de qualidade de dados para a verificação. Você também pode especificar detalhes adicionais no arquivo, como filtros, porcentagem de amostragem, e ações pós-verificação, como exportar para o BigQuery notificações por e-mail. Consulte a documentação para representação JSON.
  • DATA_SOURCE_ENTITY: o Dataplex entidade que contém os dados para a verificação da qualidade de dados. Por exemplo, projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity.
  • DATA_SOURCE_RESOURCE: o nome do recurso que contém os dados para a verificação da qualidade. Por exemplo, //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.

REST

Use o APIs Explorer para criar uma verificação de qualidade de dados.

Se você quiser criar regras para a verificação da qualidade de dados usando recomendações baseadas nos resultados de uma verificação de criação de perfil de dados, as recomendações chamando Método dataScans.jobs.generateDataQualityRules da criação de perfil de dados.

Exportar esquema da tabela

Para exportar os resultados da verificação de qualidade de dados para um BigQuery atual verifique se ela é compatível com o esquema de tabela a seguir:

Nome da coluna Tipo de dados da coluna Nome do subcampo
(se aplicável)
Tipo de dados do submenu Modo Exemplo
data_quality_scan struct/record resource_name string anulável //dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan
project_id string anulável dataplex-back-end-dev-project
location string anulável us-central1
data_scan_id string anulável test-datascan
data_source struct/record resource_name string anulável Caso da entidade:
//dataplex.googleapis.com/projects/dataplex-back-end-dev-project/locations/europe-west2/lakes/a0-datascan-test-lake/zones/a0-datascan-test-zone/entities/table1

Uso de tabela: //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
dataplex_entity_project_id string anulável dataplex-back-end-dev-project
dataplex_entity_project_number integer anulável 123456789
dataplex_lake_id string anulável Válido somente se a origem for uma entidade.
test-lake
dataplex_zone_id string anulável Válido somente se a origem for uma entidade.
test-zone
dataplex_entity_id string anulável Válido somente se a origem for uma entidade.
test-entity
table_project_id string anulável test-project
table_project_number integer anulável 987654321
dataset_id string anulável (Válido somente se a origem for uma tabela)
test-dataset
table_id string anulável (Válido somente se a origem for uma tabela)
test-table
data_quality_job_id string anulável caeba234-cfde-4fca-9e5b-fe02a9812e38
data_quality_job_configuration json trigger string anulável ondemand/schedule
incremental boolean anulável true/false
sampling_percent float anulável (0 a 100)
20.0 (indica 20%)
row_filter string anulável col1 >= 0 AND col2 < 10
job_labels json anulável {"key1":value1}
job_start_time timestamp anulável 2023-01-01 00:00:00 UTC
job_end_time timestamp anulável 2023-01-01 00:00:00 UTC
job_rows_scanned integer anulável 7500
rule_name string anulável test-rule
rule_type string anulável Range Check
rule_evaluation_type string anulável Per row
rule_column string anulável Rule only attached to a certain column
rule_dimension string anulável UNIQUENESS
job_quality_result struct/record passed boolean anulável true/false
score float anulável 90.8
job_dimension_result json anulável {"ACCURACY":{"passed":true,"score":100},"CONSISTENCY":{"passed":false,"score":60}}
rule_threshold_percent float anulável (0,0-100,0)
Rule-threshold-pct in API * 100
rule_parameters json anulável {min: 24, max:5345}
rule_pass boolean anulável True
rule_rows_evaluated integer anulável 7400
rule_rows_passed integer anulável 3
rule_rows_null integer anulável 4
rule_failed_records_query string anulável "SELECT * FROM `test-project.test-dataset.test-table` WHERE (NOT((`cTime` >= '15:31:38.776361' and `cTime` <= '19:23:53.754823') IS TRUE));"

Ao configurar BigQueryExport para um job de verificação de qualidade de dados, siga estas diretrizes:

  • Para o campo resultsTable, use o formato: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.
  • Usar uma tabela padrão do BigQuery.
  • Se a tabela não existir quando a verificação for criada ou atualizada, O Dataplex cria a tabela para você.
  • Por padrão, a tabela é particionada na coluna job_start_time diariamente.
  • Se você quiser que a tabela seja particionada em outras configurações ou se sem a partição e recrie a tabela com as e suas configurações e, em seguida, fornecer a tabela pré-criada como na tabela de resultados.
  • Verifique se a tabela de resultados está no mesmo local que a tabela de origem.
  • Se o VPC-SC estiver configurado no projeto, a tabela de resultados precisará estar no do mesmo perímetro do VPC-SC que a tabela de origem.
  • Se a tabela for modificada durante o estágio de execução da verificação, o estado as exportações do job em execução para a tabela de resultados anterior e a alteração da tabela entra em vigor no próximo job de verificação.
  • Não modifique o esquema da tabela. Se você precisar de colunas personalizadas, crie uma visualização sobre a mesa.
  • Para reduzir custos, defina uma expiração na partição com base no seu caso de uso. Para mais informações, consulte como definir a expiração da partição.

Executar uma verificação de qualidade de dados

Console

  1. No console do Google Cloud, acesse a página Qualidade de dados.

    Acessar "Qualidade de dados"

  2. Clique na verificação de qualidade de dados que você quer executar.

  3. Clique em Executar agora.

gcloud

Para executar uma verificação de qualidade de dados, use o Comando gcloud dataplex datascans run:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION \

Substitua as seguintes variáveis:

  • LOCATION: a região do Google Cloud em que o verificação de qualidade de dados criada.
  • DATASCAN: o nome da verificação de qualidade de dados.

REST

Use o APIs Explorer para executar a verificação de qualidade de dados.

Ver os resultados da verificação de qualidade de dados

Console

  1. No console do Google Cloud, acesse a página Qualidade de dados.

    Acessar "Qualidade de dados"

  2. Para ver os resultados detalhados de uma verificação, clique no nome dela.

    • A seção Visão geral exibe informações sobre os sete últimos jobs, incluindo quando a verificação foi executada, o número de registros verificados em cada job, se todas as verificações de qualidade dos dados foram aprovadas, o número de verificações de qualidade dos dados que falharam e quais falha nas dimensões.

    • A seção Configuração da verificação da qualidade de dados exibe detalhes sobre o digitalizar.

  3. Para ver os índices de qualidade de dados que indicam a porcentagem de regras que aprovado, clique na guia Histórico de jobs. Em seguida, clique em um ID de job.

.

gcloud

Para acessar os resultados de um job de verificação de qualidade de dados, use o Comando gcloud dataplex datascans jobs describe:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Substitua as seguintes variáveis:

  • JOB: o ID do job de verificação de qualidade de dados.
  • LOCATION: a região do Google Cloud em que os dados verificação de qualidade criada.
  • DATASCAN: o nome da verificação de qualidade de dados do job a que pertence.
  • --view=FULL: para ver o resultado do job de verificação, especifique FULL.

REST

Use o APIs Explorer para ver os resultados de uma verificação de qualidade de dados.

Ver o histórico de resultados das verificações

O Dataplex salva o histórico da verificação de qualidade de dados dos últimos 300 empregos ou no ano passado, o que ocorrer primeiro.

Console

  1. No console do Google Cloud, acesse a página Qualidade de dados.

    Acessar "Qualidade de dados"

  2. Clique no nome de uma verificação.

  3. Clique na guia Histórico de jobs.

    A guia Histórico de jobs fornece informações sobre jobs anteriores. Ele lista todos tarefas, o número de registros verificados em cada tarefa, o status da tarefa, o tempo o job foi executado, se cada regra foi aprovada ou reprovada, entre outras informações.

  4. Para visualizar informações detalhadas sobre um job, clique em qualquer um deles no Coluna ID do job.

gcloud

Para visualizar todos os jobs de uma verificação de qualidade de dados, use o Comando gcloud dataplex datascans jobs list:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN \

Substitua as seguintes variáveis:

  • LOCATION: a região do Google Cloud em que os dados verificação de qualidade criada.
  • DATASCAN: o nome da verificação de qualidade de dados a ser visualizada todas as vagas.

REST

Use o APIs Explorer para ver todos os jobs de verificação.

Compartilhar os resultados publicados

Ao criar uma verificação de qualidade de dados, se você tiver optado por publicar os resultados da verificação nas páginas do BigQuery e do Data Catalog, console do Google Cloud, os resultados mais recentes da verificação estarão disponíveis no guia Qualidade de dados nessas páginas.

Você pode permitir que os usuários da sua organização acessem a verificação publicada resultados. Para conceder acesso aos resultados da verificação, siga estas etapas:

  1. No console do Google Cloud, acesse a página Qualidade de dados.

    Acessar "Qualidade de dados"

  2. Clique na verificação de qualidade de dados com os resultados que você quer compartilhar.

  3. Acesse a guia Permissões.

  4. Clique em Conceder acesso.

  5. No campo Novos principais, adicione o principal a que você quer conceder acesso.

  6. No campo Selecionar um papel, selecione Dataplex DataScan DataViewer.

  7. Clique em Salvar.

Para remover o acesso de um principal aos resultados da verificação publicados, siga estas etapas:

  1. No console do Google Cloud, acesse a página Qualidade de dados.

    Acessar "Qualidade de dados"

  2. Clique na verificação de qualidade de dados com os resultados que você quer compartilhar.

  3. Acesse a guia Permissões.

  4. Selecione o principal de que você quer remover o Dataplex DataScan DataViewer. de rede.

  5. Clique em Remover acesso.

  6. Clique em Confirm.

Definir alertas no Cloud Logging

Para definir alertas de falhas na qualidade de dados com os registros do Cloud Logging, siga estas etapas:

Console

  1. No console do Google Cloud, acesse o Cloud Logging Análise de registros.

    Acessar o "Explorador de registros"

  2. Na janela Consulta, insira sua consulta. Veja exemplos de consultas.

  3. Selecione Executar consulta.

  4. Clique em Criar alerta. Essa ação abre um painel lateral.

  5. Digite o nome da política de alertas e clique em Próxima.

  6. Revise a consulta.

    1. Clique no botão Visualizar registros para testar a consulta. Isso mostra os registros com condições de correspondência.

    2. Clique em Next.

  7. Defina o tempo entre as notificações e clique em Próxima.

  8. Defina quem deve receber uma notificação sobre o alerta e clique em Salvar para criar. a política de alertas.

Como alternativa, é possível configurar e editar seus alertas navegando no Console do Google Cloud em Monitoramento > Alertas.

gcloud

Incompatível.

REST

Usar o APIs Explorer para definir alertas no Cloud Logging.

Exemplos de consultas para definir alertas no nível do job ou da dimensão

  • Um exemplo de consulta para definir alertas sobre falhas gerais na qualidade dos dados digitalizar:

    resource.type="dataplex.googleapis.com/DataScan"
    AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
    AND resource.labels.resource_container="projects/112233445566"
    AND resource.labels.datascan_id="a0-test-dec6-dq-3"
    AND NOT jsonPayload.dataQuality.passed=true
    
  • Exemplo de consulta para definir alertas sobre falhas na qualidade dos dados de uma dimensão (por exemplo, exclusividade) de uma determinada verificação de qualidade de dados:

    resource.type="dataplex.googleapis.com/DataScan"
    AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
    AND resource.labels.resource_container="projects/112233445566"
    AND resource.labels.datascan_id="a0-test-dec6-dq-3"
    AND jsonPayload.dataQuality.dimensionPassed.UNIQUENESS=false
    
  • Um exemplo de consulta para definir alertas sobre falhas na qualidade dos dados de uma tabela.

    • Definir alertas sobre falhas na qualidade de dados em uma tabela do BigQuery que não está organizado em um lake do Dataplex:

      resource.type="dataplex.googleapis.com/DataScan"
      AND jsonPayload.dataSource="//bigquery.googleapis.com/projects/test-project/datasets/testdataset/table/chicago_taxi_trips"
      AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
      AND resource.labels.resource_container="projects/112233445566"
      AND NOT jsonPayload.dataQuality.passed=true
      
    • Definir alertas sobre falhas na qualidade de dados em uma tabela do BigQuery organizados em um lake do Dataplex:

      resource.type="dataplex.googleapis.com/DataScan"
      AND jsonPayload.dataSource="projects/test-project/datasets/testdataset/table/chicago_taxi_trips"
      AND labels."dataplex.googleapis.com/data_scan_state"="SUCCEEDED"
      AND resource.labels.resource_container="projects/112233445566"
      AND NOT jsonPayload.dataQuality.passed=true
      

Exemplos de consultas a serem definidas por alertas de regra

  • Um exemplo de consulta para definir alertas em todas as regras de qualidade de dados com falha com o nome de regra personalizada especificado para uma verificação de qualidade de dados:

    resource.type="dataplex.googleapis.com/DataScan"
    AND jsonPayload.ruleName="custom-name"
    AND jsonPayload.result="FAILED"
    
  • Um exemplo de consulta para definir alertas em todas as regras de qualidade de dados com falha de uma conta tipo de avaliação para uma verificação de qualidade de dados:

    resource.type="dataplex.googleapis.com/DataScan"
    AND jsonPayload.evalutionType="PER_ROW"
    AND jsonPayload.result="FAILED"
    
  • Um exemplo de consulta para definir alertas em todas as regras de qualidade de dados com falha de uma coluna na tabela usada para uma verificação de qualidade de dados:

    resource.type="dataplex.googleapis.com/DataScan"
    AND jsonPayload.column="CInteger"
    AND jsonPayload.result="FAILED"
    

Resolver uma falha na qualidade de dados

Para cada job com regras de linha que falham, o Dataplex fornece uma consulta para obter os registros com falha. Execute esta consulta para ver os registros que fizeram não correspondem à sua regra.

Console

  1. No console do Google Cloud, acesse a página Qualidade de dados.

    Acessar "Qualidade de dados"

  2. Clique no nome da verificação com os registros que você quer resolver problemas.

  3. Clique na guia Histórico de jobs.

  4. Clique no ID do job que identificou falhas de qualidade de dados.

  5. Na janela de resultados do job que é aberta, encontre a coluna na seção Regras. Consultar para acessar registros com falha. Clique em Copiar consulta para a área de transferência para a com falha.

  6. Executar a consulta no BigQuery para acessar os registros que causaram a falha do job.

gcloud

Incompatível.

REST

Use o APIs Explorer para ver a consulta para obter registros com falha para jobs que falhou.

Atualizar uma verificação de qualidade de dados

Console

  1. No console do Google Cloud, acesse a página Qualidade de dados.

    Acessar "Qualidade de dados"

  2. Na linha com a verificação que será editada, clique nos três pontos verticais > Editar.

  3. Edite os valores.

  4. Clique em Salvar.

gcloud

Para atualizar a descrição de uma verificação de qualidade de dados, use o Comando gcloud dataplex datascans update data-quality:

gcloud dataplex datascans update data-quality DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Substitua:

  • DATASCAN: o nome da verificação de qualidade de dados para atualizar.
  • LOCATION: a região do Google Cloud em que os dados verificação de qualidade criada.
  • DESCRIPTION: a nova descrição dos dados. verificação de qualidade.
.

REST

Use o APIs Explorer para editar a verificação de qualidade de dados.

Excluir uma verificação de qualidade de dados

Console

  1. No console do Google Cloud, acesse a página Qualidade de dados.

    Acessar "Qualidade de dados"

  2. Clique na verificação que você quer excluir.

  3. Clique em Excluir.

gcloud

Para excluir uma verificação de qualidade de dados, use o Comando gcloud dataplex datascans delete:

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION \
--async

Substitua as seguintes variáveis:

  • DATASCAN: o nome da verificação de qualidade de dados para excluir.
  • LOCATION: a região do Google Cloud em que os dados verificação de qualidade criada.

REST

Use o APIs Explorer para excluir a verificação de qualidade de dados.

A seguir