Analise problemas de qualidade de dados
Este documento explica como usar o BigQuery e o Catálogo universal do Dataplex em conjunto para garantir que os dados cumprem as suas expectativas de qualidade. A qualidade de dados automática do catálogo universal do Dataplex permite-lhe definir e medir a qualidade dos dados nas suas tabelas do BigQuery. Pode automatizar a análise de dados, validar dados com base em regras definidas e registar alertas se os seus dados não cumprirem os requisitos de qualidade.
Para mais informações sobre a qualidade de dados automática, consulte a Vista geral da qualidade de dados automática.
Antes de começar
-
Enable the Dataplex API.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. - Opcional: se quiser que o catálogo universal do Dataplex gere recomendações para regras de qualidade de dados com base nos resultados de uma análise de perfil de dados, crie e execute a análise de perfil de dados.
Funções necessárias
Para executar uma análise de qualidade dos dados numa tabela do BigQuery, precisa de autorização para ler a tabela do BigQuery e autorização para criar uma tarefa do BigQuery no projeto usado para analisar a tabela.
Se a tabela do BigQuery e a análise de qualidade dos dados estiverem em projetos diferentes, tem de conceder à conta de serviço do catálogo universal do Dataplex do projeto que contém a análise de qualidade dos dados autorização de leitura para a tabela do BigQuery correspondente.
Se as regras de qualidade de dados se referirem a tabelas adicionais, a conta de serviço do projeto de análise tem de ter autorizações de leitura nas mesmas tabelas.
Para receber as autorizações necessárias para exportar os resultados da análise para uma tabela do BigQuery, peça ao seu administrador para conceder à conta de serviço do Dataplex Universal Catalog a função de editor de dados do BigQuery (
roles/bigquery.dataEditor
) do IAM no conjunto de dados e na tabela de resultados. Isto concede as seguintes autorizações:bigquery.datasets.get
bigquery.tables.create
bigquery.tables.get
bigquery.tables.getData
bigquery.tables.update
bigquery.tables.updateData
Se os dados do BigQuery estiverem organizados num lake do catálogo universal do Dataplex, conceda à conta de serviço do catálogo universal do Dataplex as funções de IAM de leitor de metadados do Dataplex (
roles/dataplex.metadataReader
) e visualizador do Dataplex (roles/dataplex.viewer
). Em alternativa, precisa de todas as seguintes autorizações:dataplex.lakes.list
dataplex.lakes.get
dataplex.zones.list
dataplex.zones.get
dataplex.entities.list
dataplex.entities.get
dataplex.operations.get
Se estiver a analisar uma tabela externa do BigQuery a partir do Cloud Storage, conceda à conta de serviço do catálogo universal do Dataplex a função Visualizador de objetos do Storage (
roles/storage.objectViewer
) para o contentor. Em alternativa, atribua à conta de serviço do catálogo universal do Dataplex as seguintes autorizações:storage.buckets.get
storage.objects.get
Se quiser publicar os resultados da análise de qualidade de dados como metadados do catálogo universal do Dataplex, tem de lhe ser concedida a função do IAM de editor de dados do BigQuery (
roles/bigquery.dataEditor
) para a tabela e a autorizaçãodataplex.entryGroups.useDataQualityScorecardAspect
no grupo de entradas@bigquery
na mesma localização que a tabela. Em alternativa, tem de lhe ser atribuída a função de editor do catálogo do Dataplex (roles/dataplex.catalogEditor
) para o grupo de entradas@bigquery
na mesma localização que a tabela.Em alternativa, precisa de todas as seguintes autorizações:
bigquery.tables.update
– na mesadataplex.entryGroups.useDataQualityScorecardAspect
: no grupo de entrada@bigquery
Em alternativa, precisa de todas as seguintes autorizações:
dataplex.entries.update
: no grupo de entradas@bigquery
dataplex.entryGroups.useDataQualityScorecardAspect
: no grupo de entrada@bigquery
Se precisar de aceder a colunas protegidas por políticas de acesso ao nível da coluna do BigQuery, atribua autorizações da conta de serviço do catálogo universal do Dataplex a essas colunas. O utilizador que cria ou atualiza uma análise de dados também precisa de autorizações para as colunas.
Se uma tabela tiver políticas de acesso ao nível da linha do BigQuery ativadas, só pode analisar linhas visíveis para a conta de serviço do catálogo universal do Dataplex. Tenha em atenção que os privilégios de acesso do utilizador individual não são avaliados para as políticas ao nível da linha.
Funções de análise de dados necessárias
Para usar a qualidade de dados automática, peça ao seu administrador que lhe conceda uma das seguintes funções do IAM:
- Acesso total aos recursos do
DataScan
: administrador do DataScan do Dataplex (roles/dataplex.dataScanAdmin
) - Para criar recursos
DataScan
: Dataplex DataScan Creator (roles/dataplex.dataScanCreator
) no projeto - Acesso de escrita aos recursos
DataScan
: editor de Dataplex DataScan (roles/dataplex.dataScanEditor
) - Acesso de leitura a recursos
DataScan
, excluindo regras e resultados: Visualizador de DataScan do Dataplex (roles/dataplex.dataScanViewer
) - Acesso de leitura aos recursos
DataScan
, incluindo regras e resultados: Dataplex DataScan DataViewer (roles/dataplex.dataScanDataViewer
)
A tabela seguinte indica as autorizações da DataScan
:
Nome da autorização | Concede autorização para realizar as seguintes ações: |
---|---|
dataplex.datascans.create |
Crie um DataScan |
dataplex.datascans.delete |
Elimine um DataScan |
dataplex.datascans.get |
Ver metadados operacionais, como o ID ou a programação, mas não os resultados nem as regras |
dataplex.datascans.getData |
Veja os detalhes do DataScan , incluindo regras e resultados |
dataplex.datascans.list |
Lista de DataScan s |
dataplex.datascans.run |
Executar DataScan |
dataplex.datascans.update |
Atualize a descrição de um DataScan |
dataplex.datascans.getIamPolicy |
Veja as autorizações IAM atuais na análise |
dataplex.datascans.setIamPolicy |
Defina as autorizações da IAM na análise |
Crie uma análise de qualidade de dados
Consola
Na Google Cloud consola, na página de Organização de metadados do BigQuery, aceda ao separador Perfil e qualidade dos dados.
Clique em Criar análise de qualidade de dados.
Na janela Definir análise, preencha os seguintes campos:
Opcional: introduza um Nome a apresentar.
Introduza um ID. Consulte as convenções de nomenclatura de recursos.
Opcional: introduza uma Descrição.
No campo Tabela, clique em Procurar. Escolha a tabela a analisar e, de seguida, clique em Selecionar. Apenas são suportadas tabelas padrão do BigQuery.
Para tabelas em conjuntos de dados multirregionais, escolha uma região onde criar a análise de dados.
Para procurar as tabelas organizadas nos lagos do catálogo universal do Dataplex, clique em Procurar nos lagos do Dataplex.
No campo Âmbito, escolha Incremental ou Dados completos.
- Se escolher Incremental: no campo Coluna de data/hora, selecione uma coluna do tipo
DATE
ouTIMESTAMP
na tabela do BigQuery que aumente à medida que são adicionados novos registos e que possa ser usada para identificar novos registos. Pode ser uma coluna que particiona a tabela.
- Se escolher Incremental: no campo Coluna de data/hora, selecione uma coluna do tipo
Para filtrar os dados, selecione a caixa de verificação Filtrar linhas. Forneça um filtro de linhas composto por uma expressão SQL válida que possa ser usada como parte de uma cláusula
WHERE
na sintaxe GoogleSQL. Por exemplo,col1 >= 0
. O filtro pode ser uma combinação de várias condições de colunas. Por exemplo,col1 >= 0 AND col2 < 10
.Para amostrar os dados, na lista Tamanho da amostragem, selecione uma percentagem de amostragem. Escolha um valor percentual entre 0,0% e 100,0% com um máximo de 3 dígitos decimais. Para conjuntos de dados maiores, escolha uma percentagem de amostragem inferior. Por exemplo, para uma tabela de 1 PB, se introduzir um valor entre 0,1% e 1,0%, a análise de qualidade de dados faz a amostragem entre 1 e 10 TB de dados. Para as análises de dados incrementais, a análise de qualidade de dados aplica a amostragem ao incremento mais recente.
Para publicar os resultados da análise da qualidade dos dados como metadados do catálogo universal do Dataplex, selecione a caixa de verificação Publicar resultados no BigQuery e no catálogo do Dataplex.
Pode ver os resultados da análise mais recentes no separador Qualidade de dados nas páginas do catálogo universal do BigQuery e do Dataplex para a tabela de origem. Para permitir que os utilizadores acedam aos resultados da análise publicados, consulte a secção Conceda acesso aos resultados da análise do perfil de dados deste documento.
Na secção Programação, escolha uma das seguintes opções:
Repetir: execute a análise de qualidade dos dados de acordo com uma programação: de hora em hora, diariamente, semanalmente, mensalmente ou de forma personalizada. Especifique a frequência com que a análise é executada e a que horas. Se escolher a opção personalizada, use o formato cron para especificar a agenda.
A pedido: execute a análise de qualidade de dados a pedido.
Clique em Continuar.
Na janela Regras de qualidade de dados, defina as regras a configurar para esta análise de qualidade de dados.
Clique em Adicionar regras e, de seguida, escolha uma das seguintes opções.
Recomendações baseadas em perfis: crie regras a partir das recomendações baseadas numa análise de criação de perfis de dados existente.
Escolher colunas: selecione as colunas para as quais quer receber regras recomendadas.
Escolher projeto de análise: se a análise de criação de perfis de dados estiver num projeto diferente do projeto onde está a criar a análise de qualidade de dados, selecione o projeto a partir do qual quer extrair as análises de perfis.
Escolher resultados do perfil: selecione um ou mais resultados do perfil e, em seguida, clique em OK. Esta ação preenche uma lista de regras sugeridas que pode usar como ponto de partida.
Selecione a caixa de verificação das regras que quer adicionar e, de seguida, clique em Selecionar. Depois de selecionadas, as regras são adicionadas à sua lista de regras atual. Em seguida, pode editar as regras.
Tipos de regras incorporadas: crie regras a partir de regras predefinidas. Consulte a lista de regras predefinidas.
Escolher colunas: selecione as colunas para as quais quer selecionar regras.
Escolha os tipos de regras: selecione os tipos de regras que quer escolher e, de seguida, clique em OK. Os tipos de regras apresentados dependem das colunas que selecionou.
Selecione a caixa de verificação das regras que quer adicionar e, de seguida, clique em Selecionar. Depois de selecionadas, as regras são adicionadas à sua lista de regras atual. Em seguida, pode editar as regras.
Regra de verificação de linhas SQL: crie uma regra SQL personalizada para aplicar a cada linha.
Em Dimensão, escolha uma dimensão.
Em Limite de aprovação, escolha uma percentagem de registos que têm de passar na verificação.
Em Nome da coluna, escolha uma coluna.
No campo Forneça uma expressão SQL, introduza uma expressão SQL que seja avaliada como um valor booleano
true
(aprovado) oufalse
(reprovado). Para mais informações, consulte os tipos de regras SQL personalizadas suportados e os exemplos em Defina regras de qualidade de dados.Clique em Adicionar.
Regra de verificação agregada de SQL: crie uma regra de condição de tabela SQL personalizada.
Em Dimensão, escolha uma dimensão.
Em Nome da coluna, escolha uma coluna.
No campo Forneça uma expressão SQL, introduza uma expressão SQL que seja avaliada como um valor booleano
true
(aprovado) oufalse
(reprovado). Para mais informações, consulte os tipos de regras SQL personalizadas suportados e os exemplos em Defina regras de qualidade de dados.Clique em Adicionar.
Regra de afirmação SQL: crie uma regra de afirmação SQL personalizada para verificar se existe um estado inválido dos dados.
Em Dimensão, escolha uma dimensão.
Opcional: em Nome da coluna, escolha uma coluna.
No campo Forneça uma declaração SQL, introduza uma declaração SQL que devolva linhas que correspondam ao estado inválido. Se forem devolvidas linhas, esta regra falha. Omita o ponto e vírgula final da declaração SQL. Para mais informações, consulte os Tipos de regras SQL personalizadas suportados e os exemplos em Defina regras de qualidade de dados.
Clique em Adicionar.
Opcional: para qualquer regra de qualidade dos dados, pode atribuir um nome de regra personalizado para usar na monitorização e nos alertas, bem como uma descrição. Para isso, edite uma regra e especifique os seguintes detalhes:
- Nome da regra: introduza um nome da regra personalizada com um máximo de 63 carateres. O nome da regra pode incluir letras (a-z, A-Z), dígitos (0-9) e hífenes (-) e tem de começar por uma letra e terminar com um número ou uma letra.
- Descrição: introduza uma descrição da regra com um comprimento máximo de 1024 carateres.
Repita os passos anteriores para adicionar regras adicionais à análise de qualidade dos dados. Quando terminar, clique em Continuar.
Opcional: exporte os resultados da análise para uma tabela padrão do BigQuery. Na secção Exporte os resultados da análise para a tabela do BigQuery, faça o seguinte:
No campo Selecionar conjunto de dados do BigQuery, clique em Procurar. Selecione um conjunto de dados do BigQuery para armazenar os resultados da análise de qualidade dos dados.
No campo Tabela do BigQuery, especifique a tabela para armazenar os resultados da análise de qualidade dos dados. Se estiver a usar uma tabela existente, certifique-se de que é compatível com o esquema da tabela de exportação. Se a tabela especificada não existir, o catálogo universal do Dataplex cria-a para si.
Opcional: adicione etiquetas. As etiquetas são pares de chave-valor que lhe permitem agrupar objetos relacionados ou com outros Google Cloud recursos.
Opcional: configure relatórios de notificação por email para alertar as pessoas acerca do estado e dos resultados de uma tarefa de análise da qualidade de dados. Na secção Relatório de notificações, clique em
Adicionar ID de email e introduza até cinco endereços de email. Em seguida, selecione os cenários para os quais quer enviar relatórios:- Índice de qualidade (<=): envia um relatório quando uma tarefa é bem-sucedida com um índice de qualidade de dados inferior ao índice de destino especificado. Introduza um nível de qualidade alvo entre 0 e 100.
- Falhas de tarefas: envia um relatório quando a própria tarefa falha, independentemente dos resultados da qualidade de dados.
- Conclusão da tarefa (com êxito ou falha): envia um relatório quando a tarefa termina, independentemente dos resultados da qualidade dos dados.
Clique em Criar.
Depois de criar a análise, pode executá-la em qualquer altura clicando em Executar agora.
gcloud
Para criar uma análise de qualidade dos dados, use o comando gcloud dataplex datascans create data-quality
.
Se os dados de origem estiverem organizados num lake do catálogo universal do Dataplex, inclua a flag --data-source-entity
:
gcloud dataplex datascans create data-quality DATASCAN \
--location=LOCATION \
--data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
--data-source-entity=DATA_SOURCE_ENTITY
Se os dados de origem não estiverem organizados num lake do catálogo universal do Dataplex, inclua a flag --data-source-resource
:
gcloud dataplex datascans create data-quality DATASCAN \
--location=LOCATION \
--data-quality-spec-file=DATA_QUALITY_SPEC_FILE \
--data-source-resource=DATA_SOURCE_RESOURCE
Substitua as seguintes variáveis:
DATASCAN
: o nome da análise de qualidade de dados.LOCATION
: a região na qual criar a análise de qualidade de dados. Google CloudDATA_QUALITY_SPEC_FILE
: O caminho para o ficheiro JSON ou YAML que contém as especificações da análise de qualidade dos dados. O ficheiro pode ser um ficheiro local ou um caminho do Cloud Storage com o prefixogs://
. Use este ficheiro para especificar as regras de qualidade de dados para a análise. Também pode especificar detalhes adicionais neste ficheiro, como filtros, percentagem de amostragem e ações pós-análise, como exportar para o BigQuery ou enviar relatórios de notificação por email. Consulte a documentação sobre a representação JSON e a representação YAML de exemplo.DATA_SOURCE_ENTITY
: a entidade do catálogo universal do Dataplex que contém os dados para a análise de qualidade de dados. Por exemplo,projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity
.DATA_SOURCE_RESOURCE
: o nome do recurso que contém os dados para a análise de qualidade dos dados. Por exemplo,//bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table
.
REST
Para criar uma análise de qualidade dos dados, use o método dataScans.create
.
Se quiser criar regras para a análise de qualidade de dados usando recomendações de regras baseadas nos resultados de uma análise de criação de perfis de dados, obtenha as recomendações chamando o método dataScans.jobs.generateDataQualityRules
na análise de criação de perfis de dados.
Execute uma análise de qualidade de dados
Consola
Na Google Cloud consola, na página de Organização de metadados do BigQuery, aceda ao separador Perfil e qualidade dos dados.
Clique na análise de qualidade de dados para a executar.
Clique em Executar agora.
gcloud
Para executar uma análise de qualidade de dados, use o comando
gcloud dataplex datascans run
:
gcloud dataplex datascans run DATASCAN \ --location=LOCATION \
Substitua as seguintes variáveis:
LOCATION
: a Google Cloud região em que a análise de qualidade de dados foi criada.DATASCAN
: o nome da análise de qualidade de dados.
REST
Para executar uma análise de qualidade de dados, use o método dataScans.run
.
Veja os resultados da análise de qualidade dos dados
Consola
Na Google Cloud consola, na página de Organização de metadados do BigQuery, aceda ao separador Perfil e qualidade dos dados.
Clique no nome de uma análise de qualidade de dados.
A secção Vista geral apresenta informações sobre as tarefas mais recentes, incluindo quando a análise foi executada, o número de registos analisados em cada tarefa, se todas as verificações de qualidade de dados foram aprovadas e, se houve falhas, o número de verificações de qualidade de dados que falharam.
A secção Configuração da análise da qualidade de dados apresenta detalhes sobre a análise.
Para ver informações detalhadas sobre uma tarefa, como as classificações de qualidade de dados que indicam a percentagem de regras aprovadas, as regras reprovadas e os registos de tarefas, clique no separador Histórico de tarefas. Em seguida, clique num ID da tarefa.
gcloud
Para ver os resultados de uma tarefa de análise de qualidade de dados, use o comando gcloud dataplex datascans jobs describe
:
gcloud dataplex datascans jobs describe JOB \ --location=LOCATION \ --datascan=DATASCAN \ --view=FULL
Substitua as seguintes variáveis:
JOB
: o ID da tarefa da tarefa de análise da qualidade dos dados.LOCATION
: A Google Cloud região em que a análise de qualidade dos dados foi criada.DATASCAN
: o nome da análise de qualidade de dados a que a tarefa pertence.--view=FULL
: para ver o resultado da tarefa de análise, especifiqueFULL
.
REST
Para ver os resultados de uma análise de qualidade de dados, use o método dataScans.get
.
Veja os resultados publicados
Se os resultados da análise da qualidade de dados forem publicados como metadados do catálogo universal do Dataplex, pode ver os resultados da análise mais recentes nas páginas do BigQuery e do catálogo universal do Dataplex na consola, no separador Qualidade de dados da tabela de origem.Google Cloud
Na Google Cloud consola, aceda à página BigQuery.
No painel Explorador, selecione a tabela cujos resultados da análise de qualidade dos dados quer ver.
Clique no separador Qualidade de dados.
São apresentados os resultados publicados mais recentes.
Veja os resultados históricos da análise
O catálogo universal do Dataplex guarda o histórico de análises da qualidade de dados dos últimos 300 trabalhos ou durante o último ano, consoante o que ocorrer primeiro.
Consola
Na Google Cloud consola, na página de Organização de metadados do BigQuery, aceda ao separador Perfil e qualidade dos dados.
Clique no nome de uma análise de qualidade de dados.
Clique no separador Histórico de trabalhos.
O separador Histórico de tarefas fornece informações sobre tarefas anteriores, como o número de registos analisados em cada tarefa, o estado da tarefa, a hora em que a tarefa foi executada e se cada regra foi aprovada ou reprovada.
Para ver informações detalhadas sobre uma tarefa, clique em qualquer uma das tarefas na coluna ID da tarefa.
gcloud
Para ver tarefas de análise de qualidade de dados do histórico, use o comando gcloud dataplex datascans jobs list
:
gcloud dataplex datascans jobs list \ --location=LOCATION \ --datascan=DATASCAN \
Substitua as seguintes variáveis:
LOCATION
: A Google Cloud região em que a análise de qualidade dos dados foi criada.DATASCAN
: o nome da análise de qualidade dos dados para ver tarefas do histórico.
REST
Para ver tarefas de análise de qualidade de dados do histórico, use o método
dataScans.jobs.list
.
Conceda acesso aos resultados da análise da qualidade dos dados
Para permitir que os utilizadores na sua organização vejam os resultados da análise, faça o seguinte:
Na Google Cloud consola, na página de Organização de metadados do BigQuery, aceda ao separador Perfil e qualidade dos dados.
Clique na análise de qualidade de dados cujos resultados quer partilhar.
Clique no separador Autorizações.
Faça o seguinte:
- Para conceder acesso a um principal, clique em Conceder acesso. Conceda a função Dataplex DataScan DataViewer ao principal associado.
- Para remover o acesso de um principal, selecione o principal do qual quer remover a função Dataplex DataScan DataViewer. Clique em Remover acesso e, de seguida, confirme quando lhe for pedido.
Resolva problemas de falhas de qualidade de dados
Pode definir alertas para falhas de qualidade de dados através dos registos no Cloud Logging. Para mais informações, incluindo exemplos de consultas, consulte o artigo Defina alertas no Cloud Logging.
Para cada tarefa com regras ao nível da linha que falham, o catálogo universal do Dataplex fornece uma consulta para obter os registos com falhas. Execute esta consulta para ver os registos que não corresponderam à sua regra.
Consola
Na Google Cloud consola, na página de Organização de metadados do BigQuery, aceda ao separador Perfil e qualidade dos dados.
Clique no nome da análise de qualidade dos dados cujos registos quer resolver.
Clique no separador Histórico de trabalhos.
Clique no ID da tarefa que identificou falhas de qualidade de dados.
Na janela de resultados da tarefa apresentada, na secção Regras, encontre a coluna Consulta para obter registos com falhas. Clique em Copiar consulta para a área de transferência para a regra com falha.
Execute a consulta no BigQuery para ver os registos que fizeram com que a tarefa falhasse.
gcloud
Não suportado.
REST
Para obter a tarefa que identificou falhas de qualidade de dados, use o método
dataScans.get
.No objeto de resposta, o campo
failingRowsQuery
mostra a consulta.Execute a consulta no BigQuery para ver os registos que fizeram com que a tarefa falhasse.
Faça a gestão das análises de qualidade de dados para uma tabela específica
Os passos neste documento mostram como gerir as análises de qualidade de dados no seu projeto através da página Organização de metadados > Criação de perfis e qualidade de dados do BigQuery naGoogle Cloud consola.
Também pode criar e gerir análises de qualidade de dados quando trabalha com uma tabela específica. Na Google Cloud consola, na página do BigQuery para a tabela, use o separador Qualidade dos dados. Faça o seguinte:
Na Google Cloud consola, aceda à página BigQuery.
No painel Explorador, selecione a tabela.
Clique no separador Qualidade de dados.
Consoante a tabela tenha uma análise de qualidade de dados cujos resultados são publicados como metadados do catálogo universal do Dataplex, pode trabalhar com as análises de qualidade de dados da tabela das seguintes formas:
Os resultados da análise de qualidade de dados são publicados: os resultados da análise mais recentes são apresentados na página.
Para gerir as análises de qualidade de dados desta tabela, clique em Análise de qualidade de dados e, de seguida, selecione uma das seguintes opções:
Criar nova análise: crie uma nova análise da qualidade dos dados. Para mais informações, consulte a secção Crie uma análise de qualidade dos dados deste documento. Quando cria uma análise a partir da página de detalhes de uma tabela, a tabela é pré-selecionada.
Executar agora: execute a análise.
Editar configuração da análise: edite as definições, incluindo o nome a apresentar, os filtros e a programação.
Para editar as regras de qualidade de dados, no separador Qualidade de dados, clique no separador Regras. Clique em Modificar regras. Atualize as regras e, de seguida, clique em Guardar.
Faça a gestão das autorizações de análise: controle quem pode aceder aos resultados da análise. Para mais informações, consulte a secção Conceda acesso aos resultados da análise de qualidade dos dados deste documento.
Ver resultados do histórico: veja informações detalhadas sobre tarefas de análise da qualidade dos dados anteriores. Para mais informações, consulte as secções Ver resultados da análise de qualidade dos dados e Ver resultados históricos da análise deste documento.
Ver todas as análises: veja uma lista de análises de qualidade de dados que se aplicam a esta tabela.
Os resultados da análise de qualidade de dados não são publicados: selecione uma das seguintes opções:
Criar análise de qualidade de dados: crie uma nova análise de qualidade de dados. Para mais informações, consulte a secção Crie uma análise de qualidade dos dados deste documento. Quando cria uma análise a partir da página de detalhes de uma tabela, a tabela é pré-selecionada.
Ver verificações existentes: veja uma lista de verificações de qualidade de dados que se aplicam a esta tabela.
Veja as análises de qualidade de dados de uma tabela
Para ver as análises de qualidade de dados que se aplicam a uma tabela específica, faça o seguinte:
Na Google Cloud consola, na página de Organização de metadados do BigQuery, aceda ao separador Perfil e qualidade dos dados.
Filtre a lista por nome da tabela e tipo de análise.
Atualize uma análise de qualidade de dados
Pode editar várias definições de uma análise de qualidade dos dados existente, como o nome a apresentar, os filtros, a programação e as regras de qualidade dos dados.
Consola
Na Google Cloud consola, na página de Organização de metadados do BigQuery, aceda ao separador Perfil e qualidade dos dados.
Clique no nome de uma análise de qualidade de dados.
Para editar as definições, incluindo o nome a apresentar, os filtros e o horário, clique em Editar. Edite os valores e, de seguida, clique em Guardar.
Para editar as regras de qualidade dos dados, na página de detalhes da análise, clique no separador Regras atuais. Clique em Modificar regras. Atualize as regras e, em seguida, clique em Guardar.
gcloud
Para atualizar a descrição de uma análise da qualidade dos dados, use o comando gcloud dataplex datascans update data-quality
:
gcloud dataplex datascans update data-quality DATASCAN \ --location=LOCATION \ --description=DESCRIPTION
Substitua o seguinte:
DATASCAN
: o nome da análise de qualidade dos dados a atualizar.LOCATION
: A Google Cloud região em que a análise de qualidade dos dados foi criada.DESCRIPTION
: a nova descrição da análise de qualidade dos dados.
REST
Para editar uma análise da qualidade de dados, use o método
dataScans.patch
.
Elimine uma análise de qualidade dos dados
Consola
Na Google Cloud consola, na página de Organização de metadados do BigQuery, aceda ao separador Perfil e qualidade dos dados.
Clique na análise que quer eliminar.
Clique em Eliminar e, de seguida, confirme quando lhe for pedido.
gcloud
Para eliminar uma análise da qualidade dos dados, use o comando
gcloud dataplex datascans delete
:
gcloud dataplex datascans delete DATASCAN \ --location=LOCATION \ --async
Substitua as seguintes variáveis:
DATASCAN
: o nome da análise de qualidade de dados a eliminar.LOCATION
: A Google Cloud região em que a análise de qualidade dos dados foi criada.
REST
Para eliminar uma análise de qualidade dos dados, use o método
dataScans.delete
.
O que se segue?
- Saiba mais sobre a governança de dados no BigQuery.