As estatísticas de dados oferecem uma forma automática de explorar e compreender os seus dados. Com as estatísticas de dados, o Gemini no BigQuery usa metadados para gerar perguntas em linguagem natural sobre a sua tabela e as consultas para responder a essas perguntas. Isto ajuda a descobrir padrões, avaliar a qualidade dos dados e fazer análises estatísticas.
Este documento descreve as principais funcionalidades das estatísticas de dados e como as ver para uma análise de dados detalhada.
Antes de começar
As estatísticas de dados são geradas através do
Gemini no BigQuery
e só podem ser geradas no BigQuery Studio.
Primeiro, configure o Gemini no BigQuery e, de seguida, gere estatísticas no BigQuery.
O Gemini processa os seus metadados para estatísticas exclusivamente na
us-central1
região. Para mais informações, consulte o artigo
Localizações de publicação do Gemini.
Depois de gerar estatísticas, pode vê-las no Dataplex Universal Catalog.
Funções necessárias
Para ter acesso só de leitura às estatísticas geradas, peça ao seu administrador para lhe conceder a seguinte função de IAM:
- Visualizador de dados do Dataplex DataScan (
roles/dataplex.dataScanDataViewer
) no projeto que contém as tabelas do BigQuery para as quais quer ver estatísticas.
Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.
Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas. Para ver as autorizações exatas necessárias para gerar estatísticas, expanda a secção Autorizações necessárias:
Autorizações necessárias
dataplex.datascans.get
dataplex.datascans.getData
Ativar APIs
Para usar as estatísticas de dados, ative as seguintes APIs no seu projeto: API Dataplex, API BigQuery e API Gemini para Google Cloud.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin
), which
contains the serviceusage.services.enable
permission. Learn how to grant
roles.
Para mais informações sobre como ativar a API Gemini para o Google Cloud, consulte o artigo Ative a API Gemini para o Google Cloud num Google Cloud projeto.
Acerca das estatísticas de dados
Quando exploram uma tabela nova e desconhecida, os analistas de dados deparam-se frequentemente com o problema de arranque a frio. O problema envolve frequentemente incertezas sobre a estrutura dos dados, os padrões das chaves e as estatísticas relevantes nos dados, o que dificulta o início da escrita de consultas.
As estatísticas de dados resolvem o problema de arranque a frio gerando automaticamente consultas de linguagem natural e os respetivos equivalentes SQL com base nos metadados de uma tabela. Em vez de começar com um editor de consultas vazio, pode iniciar rapidamente a exploração de dados com consultas significativas que oferecem estatísticas valiosas. Para investigar mais a fundo, pode fazer perguntas de seguimento na tela de dados.
Exemplo de uma execução de estatísticas
Considere uma tabela denominada telco_churn
com os seguintes metadados:
Nome do campo | Tipo |
---|---|
CustomerID | STRING |
Género | STRING |
Tenure | INT64 |
InternetService | STRING |
StreamingTV | STRING |
OnlineBackup | STRING |
Reduzir | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
Abandono | BOOLEAN |
Seguem-se algumas das consultas de exemplo que as estatísticas de dados geram para esta tabela:
Identificar clientes que subscreveram todos os serviços premium e são clientes há mais de 50 meses.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;
Identificar que serviço de Internet tem o maior número de clientes que cancelaram a subscrição.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
Identifique as taxas de abandono por segmento entre os clientes de elevado valor.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Ver estatísticas
Para ver estatísticas de uma tabela do BigQuery, aceda à entrada da tabela no Dataplex Universal Catalog através da pesquisa do Dataplex Universal Catalog.
Na Google Cloud consola, aceda à página Pesquisa do Dataplex Universal Catalog.
Pesquise a entrada da tabela no Dataplex Universal Catalog.
Clique no separador Estatísticas. Se o separador estiver vazio, significa que as estatísticas desta tabela ainda não foram geradas. Pode gerar estatísticas de dados no BigQuery Studio.
Preços
Para ver detalhes sobre os preços desta funcionalidade, consulte a vista geral dos preços do Gemini no BigQuery.
Quotas e limites
Para informações sobre quotas e limites desta funcionalidade, consulte o artigo Quotas para o Gemini no BigQuery.
Localizações
O Gemini funciona a nível global, pelo que não pode restringir o tratamento de dados a uma região específica. Para saber mais sobre as localizações onde o Gemini no BigQuery processa dados, consulte o artigo Localizações de fornecimento do Gemini.
Limitações
- As estatísticas de dados estão disponíveis para tabelas do BigQuery, tabelas do BigLake, tabelas externas e vistas.
- Para clientes com várias nuvens, os dados de outras nuvens não estão disponíveis.
- As estatísticas de dados não suportam os tipos de colunas
Geo
nemJSON
. - As execuções de estatísticas não garantem a apresentação de consultas sempre. Para aumentar a probabilidade de gerar consultas mais apelativas, regenere as estatísticas no BigQuery Studio.
O que se segue?
- Saiba como gerar estatísticas no BigQuery.
- Saiba como gerar uma análise de criação de perfis de dados.
- Saiba como escrever consultas com a ajuda do Gemini no BigQuery.