Aceda a estatísticas de dados no Dataplex Universal Catalog

As estatísticas de dados oferecem uma forma automática de explorar e compreender os seus dados. Com as estatísticas de dados, o Gemini no BigQuery usa metadados para gerar perguntas em linguagem natural sobre a sua tabela e as consultas para responder a essas perguntas. Isto ajuda a descobrir padrões, avaliar a qualidade dos dados e fazer análises estatísticas.

Este documento descreve as principais funcionalidades das estatísticas de dados e como as ver para uma análise de dados detalhada.

Antes de começar

As estatísticas de dados são geradas através do Gemini no BigQuery e só podem ser geradas no BigQuery Studio. Primeiro, configure o Gemini no BigQuery e, de seguida, gere estatísticas no BigQuery. O Gemini processa os seus metadados para estatísticas exclusivamente na us-central1 região. Para mais informações, consulte o artigo Localizações de publicação do Gemini. Depois de gerar estatísticas, pode vê-las no Dataplex Universal Catalog.

Funções necessárias

Para ter acesso só de leitura às estatísticas geradas, peça ao seu administrador para lhe conceder a seguinte função de IAM:

Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.

Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas. Para ver as autorizações exatas necessárias para gerar estatísticas, expanda a secção Autorizações necessárias:

Autorizações necessárias

  • dataplex.datascans.get
  • dataplex.datascans.getData

Ativar APIs

Para usar as estatísticas de dados, ative as seguintes APIs no seu projeto: API Dataplex, API BigQuery e API Gemini para Google Cloud.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Para mais informações sobre como ativar a API Gemini para o Google Cloud, consulte o artigo Ative a API Gemini para o Google Cloud num Google Cloud projeto.

Acerca das estatísticas de dados

Quando exploram uma tabela nova e desconhecida, os analistas de dados deparam-se frequentemente com o problema de arranque a frio. O problema envolve frequentemente incertezas sobre a estrutura dos dados, os padrões das chaves e as estatísticas relevantes nos dados, o que dificulta o início da escrita de consultas.

As estatísticas de dados resolvem o problema de arranque a frio gerando automaticamente consultas de linguagem natural e os respetivos equivalentes SQL com base nos metadados de uma tabela. Em vez de começar com um editor de consultas vazio, pode iniciar rapidamente a exploração de dados com consultas significativas que oferecem estatísticas valiosas. Para investigar mais a fundo, pode fazer perguntas de seguimento na tela de dados.

Exemplo de uma execução de estatísticas

Considere uma tabela denominada telco_churn com os seguintes metadados:

Nome do campo Tipo
CustomerID STRING
Género STRING
Tenure INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Reduzir STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Abandono BOOLEAN

Seguem-se algumas das consultas de exemplo que as estatísticas de dados geram para esta tabela:

  • Identificar clientes que subscreveram todos os serviços premium e são clientes há mais de 50 meses.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identificar que serviço de Internet tem o maior número de clientes que cancelaram a subscrição.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifique as taxas de abandono por segmento entre os clientes de elevado valor.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Ver estatísticas

Para ver estatísticas de uma tabela do BigQuery, aceda à entrada da tabela no Dataplex Universal Catalog através da pesquisa do Dataplex Universal Catalog.

  1. Na Google Cloud consola, aceda à página Pesquisa do Dataplex Universal Catalog.

    Aceda à pesquisa

  2. Pesquise a entrada da tabela no Dataplex Universal Catalog.

  3. Clique no separador Estatísticas. Se o separador estiver vazio, significa que as estatísticas desta tabela ainda não foram geradas. Pode gerar estatísticas de dados no BigQuery Studio.

Preços

Para ver detalhes sobre os preços desta funcionalidade, consulte a vista geral dos preços do Gemini no BigQuery.

Quotas e limites

Para informações sobre quotas e limites desta funcionalidade, consulte o artigo Quotas para o Gemini no BigQuery.

Localizações

O Gemini funciona a nível global, pelo que não pode restringir o tratamento de dados a uma região específica. Para saber mais sobre as localizações onde o Gemini no BigQuery processa dados, consulte o artigo Localizações de fornecimento do Gemini.

Limitações

  • As estatísticas de dados estão disponíveis para tabelas do BigQuery, tabelas do BigLake, tabelas externas e vistas.
  • Para clientes com várias nuvens, os dados de outras nuvens não estão disponíveis.
  • As estatísticas de dados não suportam os tipos de colunas Geo nem JSON.
  • As execuções de estatísticas não garantem a apresentação de consultas sempre. Para aumentar a probabilidade de gerar consultas mais apelativas, regenere as estatísticas no BigQuery Studio.

O que se segue?