Gere estatísticas de dados no BigQuery
As estatísticas de dados são uma forma automática de explorar, compreender e organizar os seus dados. Com as estatísticas de dados, o Gemini no BigQuery gera perguntas em linguagem natural e as consultas SQL para responder a essas perguntas, com base nos metadados das tabelas. Estas estatísticas ajudam a descobrir padrões, avaliar a qualidade dos dados e fazer uma análise estatística.
Também pode usar as estatísticas de dados para gerar descrições de tabelas e colunas com base nos metadados das tabelas. Esta funcionalidade ajuda a documentar os seus dados para uma análise significativa e melhora a capacidade de descoberta do conjunto de dados.
Esta página descreve as principais funcionalidades das estatísticas de dados e o processo para automatizar a geração de consultas para uma análise detalhada dos dados.
Antes de começar
As estatísticas de dados são geradas através do Gemini no BigQuery. Para começar a gerar estatísticas, tem de configurar o Gemini no BigQuery.
Funções necessárias
Para criar, gerir e obter estatísticas de dados, peça ao administrador para lhe conceder as seguintes funções de IAM:
Editor do DataScan do Dataplex (
roles/dataplex.dataScanEditor
) ou Administrador do DataScan do Dataplex (roles/dataplex.dataScanAdmin
) no projeto onde quer gerar estatísticas.Visualizador de dados do BigQuery (
roles/bigquery.dataViewer
) nas tabelas do BigQuery para as quais quer gerar estatísticas.Editor de dados do BigQuery (
roles/bigquery.dataEditor
) nas tabelas do BigQuery para as quais quer gerar estatísticas.Utilizador do BigQuery (
roles/bigquery.user
) ou Utilizador do BigQuery Studio (roles/bigquery.studioUser
) no projeto onde quer gerar estatísticas.
Para ter acesso só de leitura às estatísticas geradas, peça ao seu administrador para lhe conceder a seguinte função de IAM:
- Visualizador de dados do Dataplex DataScan (
roles/dataplex.dataScanDataViewer
) no projeto que contém as tabelas do BigQuery para as quais quer ver estatísticas.
Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.
Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas. Para ver as autorizações exatas necessárias para gerar estatísticas, expanda a secção Autorizações necessárias:
Autorizações necessárias
bigquery.jobs.create
bigquery.tables.get
bigquery.tables.getData
dataplex.datascans.create
dataplex.datascans.get
dataplex.datascans.getData
dataplex.datascans.run
Ativar APIs
Para usar as estatísticas de dados, ative as seguintes APIs no seu projeto: API Dataplex, API BigQuery e API Gemini para Google Cloud.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM
role (roles/serviceusage.serviceUsageAdmin
), which
contains the serviceusage.services.enable
permission. Learn how to grant
roles.
Para mais informações sobre como ativar a API Gemini para o Google Cloud, consulte o artigo Ative a API Gemini para o Google Cloud num Google Cloud projeto.
Acerca das estatísticas de dados
Quando exploram uma tabela nova e desconhecida, os analistas de dados deparam-se frequentemente com o problema de arranque a frio. O problema envolve frequentemente incertezas sobre a estrutura dos dados, os padrões das chaves e as estatísticas relevantes nos dados, o que dificulta o início da escrita de consultas.
As estatísticas de dados resolvem o problema de arranque a frio gerando automaticamente consultas de linguagem natural e os respetivos equivalentes SQL com base nos metadados de uma tabela. Em vez de começar com um editor de consultas vazio, pode iniciar rapidamente a exploração de dados com consultas significativas que oferecem estatísticas valiosas. Para investigar mais a fundo, pode fazer perguntas de seguimento na tela de dados.
Exemplo de uma execução de estatísticas
Considere uma tabela denominada telco_churn
com os seguintes metadados:
Nome do campo | Tipo |
---|---|
CustomerID | STRING |
Género | STRING |
Tenure | INT64 |
InternetService | STRING |
StreamingTV | STRING |
OnlineBackup | STRING |
Reduzir | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
Abandono | BOOLEAN |
Seguem-se algumas das consultas de exemplo que as estatísticas de dados geram para esta tabela:
Identificar clientes que subscreveram todos os serviços premium e são clientes há mais de 50 meses.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;
Identificar que serviço de Internet tem o maior número de clientes que cancelaram a subscrição.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
Identifique as taxas de abandono por segmento entre os clientes de elevado valor.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Práticas recomendadas para melhorar as estatísticas geradas
Para melhorar a precisão das estatísticas geradas, siga estas práticas recomendadas:
Fundamente as informações nos resultados da criação de perfis de dados
Na IA generativa, a fundamentação é a capacidade de associar o resultado do modelo a fontes de informações verificáveis. Pode fundamentar as estatísticas geradas nos resultados da criação de perfis de dados. A análise do perfil de dados analisa as colunas nas suas tabelas do BigQuery e identifica características estatísticas comuns, como valores de dados típicos e distribuição de dados. Quando cria uma análise de criação de perfis de dados para uma tabela, pode optar por publicar os resultados da análise nas páginas do BigQuery e do Catálogo universal do Dataplex na Google Cloud consola. O BigQuery usa os resultados da análise do perfil de dados para criar consultas mais precisas e relevantes, fazendo o seguinte:
- Analisa os resultados da criação de perfis de dados para identificar padrões, tendências ou valores atípicos interessantes nos dados.
- Gera consultas focadas nestes padrões, tendências ou valores atípicos para descobrir estatísticas.
- Valida as consultas geradas com base nos resultados da criação de perfis de dados para garantir que as consultas devolvem resultados significativos.
Sem análises de criação de perfis de dados, ocorrem as seguintes situações:
- É mais provável que as consultas geradas incluam cláusulas incorretas ou produzam resultados sem sentido.
- As descrições das colunas geradas baseiam-se apenas no nome da coluna.
Certifique-se de que a análise de criação de perfis de dados da sua tabela está atualizada e que os resultados são publicados no BigQuery.
Pode ajustar as definições de criação de perfis de dados para aumentar o tamanho da amostragem e filtrar linhas e colunas. Depois de executar uma nova análise de criação de perfis de dados, regenere as estatísticas.
Adicione uma descrição da tabela
As descrições detalhadas das tabelas que descrevem o que quer analisar na sua tabela podem ajudar o Gemini no BigQuery a produzir estatísticas mais relevantes. Depois de adicionar uma descrição da tabela, volte a gerar as estatísticas.
Por exemplo, pode adicionar a seguinte descrição à
tabelatelco_churn
: "Esta tabela acompanha os dados de rotatividade de clientes, incluindo detalhes de subscrição, antiguidade e utilização do serviço, para prever o comportamento de rotatividade de clientes."
Se guardar a descrição da tabela gerada pelo Gemini, essa descrição é usada para gerar estatísticas futuras.
Adicione descrições de colunas
As descrições das colunas que explicam o que é cada coluna ou como uma coluna se relaciona com outra podem melhorar a qualidade das suas estatísticas. Depois de atualizar as descrições das colunas na tabela, regenere as estatísticas.
Por exemplo, pode adicionar as seguintes descrições a colunas específicas da tabela telco_churn
:
Tenure
: "O número de meses em que o cliente usa o serviço."Churn
: "Se o cliente deixou de usar o serviço. VERDADEIRO indica que o cliente já não usa o serviço. FALSO indica que o cliente está ativo."
Se guardar as descrições das colunas geradas pelo Gemini, essas descrições são usadas para gerar estatísticas futuras.
Gere estatísticas para uma tabela do BigQuery
Para gerar estatísticas para uma tabela do BigQuery, tem de aceder à entrada da tabela no BigQuery através do BigQuery Studio.
Na Google Cloud consola, aceda ao BigQuery Studio.
No painel Explorador, selecione a tabela para a qual quer gerar estatísticas.
Clique no separador Estatísticas. Se o separador estiver vazio, significa que as estatísticas desta tabela ainda não foram geradas.
Para acionar o pipeline de estatísticas, clique em Gerar estatísticas.
Demora alguns minutos até que as estatísticas sejam preenchidas.
Se estiverem disponíveis resultados da análise do perfil de dados publicados para a tabela, estes são usados para gerar estatísticas. Caso contrário, as estatísticas são geradas com base nos nomes e nas descrições das colunas.
No separador Estatísticas, explore as perguntas de linguagem natural geradas.
Para ver a consulta SQL que responde a uma pergunta, clique na pergunta.
Para abrir uma consulta no BigQuery, clique em Copiar para consulta.
Para fazer perguntas de seguimento, faça o seguinte:
Clique em Fazer outra pergunta. A consulta é aberta numa nova tela de dados.
Clique em Executar e, de seguida, em Consultar estes resultados.
Para fazer uma pergunta de seguimento, introduza um comando no campo de comando de linguagem natural ou edite o SQL no editor de consultas.
Para gerar um novo conjunto de consultas, clique em Gerar estatísticas e acione novamente o pipeline.
Depois de gerar estatísticas para uma tabela, qualquer pessoa com a autorização dataplex.datascans.getData
e acesso à tabela
pode ver essas estatísticas.
Gere estatísticas para uma tabela externa do BigQuery
As estatísticas de dados do BigQuery suportam a geração de estatísticas para tabelas externas do BigQuery com dados no Cloud Storage.
A sua conta e a conta de serviço do catálogo universal do Dataplex para o projeto atual têm de ter a função Visualizador de objetos do Storage (roles/storage.objectViewer
) no contentor do Cloud Storage que contém os dados. Para mais
informações, consulte o artigo
Adicione um principal a uma política ao nível do contentor.
Para gerar estatísticas para uma tabela externa do BigQuery, siga as instruções descritas na secção Gere estatísticas para uma tabela do BigQuery deste documento.
Gere estatísticas para uma tabela do BigLake
Para gerar estatísticas para uma tabela do BigLake, siga estes passos:
Ative a API BigQuery Connection no seu projeto.
Crie uma ligação do BigQuery. Para mais informações, consulte o artigo Faça a gestão das associações.
Conceda a função de IAM (
roles/storage.objectViewer
) de visualizador de objetos de armazenamento à conta de serviço correspondente à ligação do BigQuery que criou.Pode obter o ID da conta de serviço nos detalhes da associação.
Para gerar estatísticas, siga as instruções descritas na secção Gere estatísticas para uma tabela do BigQuery deste documento.
Gere descrições de tabelas e colunas
O Gemini no BigQuery gera automaticamente descrições de tabelas e colunas quando gera estatísticas de dados. Pode editar estas descrições conforme necessário e, em seguida, guardá-las nos metadados da tabela. As descrições guardadas são usadas para gerar estatísticas futuras.
Para gerar descrições de tabelas e colunas, siga estes passos:
Gere estatísticas seguindo as instruções descritas na secção relevante deste documento:
Clique no separador Esquema.
Clique em Ver descrições das colunas.
São apresentadas a descrição da tabela e as descrições das colunas geradas.
Para editar e guardar a descrição da tabela gerada, faça o seguinte:
Na secção Descrição da tabela, clique em Guardar nos detalhes.
Para substituir a descrição atual pela descrição gerada, clique em Copiar descrição sugerida.
Edite a descrição da tabela conforme necessário e, de seguida, clique em Guardar nos detalhes.
A descrição da tabela é atualizada imediatamente.
Para editar e guardar as descrições de colunas geradas, faça o seguinte:
Na secção Descrições das colunas, clique em Guardar no esquema.
As descrições das colunas geradas são preenchidas no campo Nova descrição para cada coluna.
Edite as descrições das colunas conforme necessário e, de seguida, clique em Guardar.
As descrições das colunas são atualizadas imediatamente.
Para fechar o painel de pré-visualização, clique em
Fechar.
Preços
Para ver detalhes sobre os preços desta funcionalidade, consulte a vista geral dos preços do Gemini no BigQuery.
Quotas e limites
Para informações sobre quotas e limites desta funcionalidade, consulte o artigo Quotas para o Gemini no BigQuery.
Limitações
- As estatísticas de dados estão disponíveis para tabelas do BigQuery, tabelas do BigLake, tabelas externas e vistas.
- Para clientes com várias nuvens, os dados de outras nuvens não estão disponíveis.
- As estatísticas de dados não suportam os tipos de colunas
Geo
nemJSON
. - As execuções de estatísticas não garantem a apresentação de consultas sempre. Para aumentar a probabilidade de gerar consultas mais apelativas, reinicie o pipeline de estatísticas.
- Para tabelas com controlos de acesso ao nível da coluna (ACLs) e autorizações de utilizador restritas, pode gerar estatísticas se tiver acesso de leitura a todas as colunas da tabela. Para executar as consultas geradas, tem de ter autorizações suficientes.
- As descrições das colunas são geradas para um máximo de 350 colunas numa tabela.
Localizações
Pode usar estatísticas de dados em todas as localizações do BigQuery. O Gemini no BigQuery funciona a nível global, pelo que não pode restringir o processamento de dados a uma região específica. Para saber mais sobre as localizações onde o Gemini no BigQuery processa dados, consulte o artigo Localizações de serviço do Gemini.
O que se segue?
- Saiba mais sobre a análise de perfis de dados do catálogo universal do Dataplex.
- Saiba como escrever consultas com a ajuda do Gemini no BigQuery.
- Saiba mais sobre o Gemini no BigQuery.
- Saiba como iterar os resultados das consultas com perguntas em linguagem natural através da tela de dados.