Gere estatísticas de dados no BigQuery

As estatísticas de dados são uma forma automática de explorar, compreender e organizar os seus dados. Com as estatísticas de dados, o Gemini no BigQuery gera perguntas em linguagem natural e as consultas SQL para responder a essas perguntas, com base nos metadados das tabelas. Estas estatísticas ajudam a descobrir padrões, avaliar a qualidade dos dados e fazer uma análise estatística.

Também pode usar as estatísticas de dados para gerar descrições de tabelas e colunas com base nos metadados das tabelas. Esta funcionalidade ajuda a documentar os seus dados para uma análise significativa e melhora a capacidade de descoberta do conjunto de dados.

Esta página descreve as principais funcionalidades das estatísticas de dados e o processo para automatizar a geração de consultas para uma análise detalhada dos dados.

Antes de começar

As estatísticas de dados são geradas através do Gemini no BigQuery. Para começar a gerar estatísticas, tem de configurar o Gemini no BigQuery.

Funções necessárias

Para criar, gerir e obter estatísticas de dados, peça ao administrador para lhe conceder as seguintes funções de IAM:

Para ter acesso só de leitura às estatísticas geradas, peça ao seu administrador para lhe conceder a seguinte função de IAM:

Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.

Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas. Para ver as autorizações exatas necessárias para gerar estatísticas, expanda a secção Autorizações necessárias:

Autorizações necessárias

  • bigquery.jobs.create
  • bigquery.tables.get
  • bigquery.tables.getData
  • dataplex.datascans.create
  • dataplex.datascans.get
  • dataplex.datascans.getData
  • dataplex.datascans.run

Ativar APIs

Para usar as estatísticas de dados, ative as seguintes APIs no seu projeto: API Dataplex, API BigQuery e API Gemini para Google Cloud.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the APIs

Para mais informações sobre como ativar a API Gemini para o Google Cloud, consulte o artigo Ative a API Gemini para o Google Cloud num Google Cloud projeto.

Acerca das estatísticas de dados

Quando exploram uma tabela nova e desconhecida, os analistas de dados deparam-se frequentemente com o problema de arranque a frio. O problema envolve frequentemente incertezas sobre a estrutura dos dados, os padrões das chaves e as estatísticas relevantes nos dados, o que dificulta o início da escrita de consultas.

As estatísticas de dados resolvem o problema de arranque a frio gerando automaticamente consultas de linguagem natural e os respetivos equivalentes SQL com base nos metadados de uma tabela. Em vez de começar com um editor de consultas vazio, pode iniciar rapidamente a exploração de dados com consultas significativas que oferecem estatísticas valiosas. Para investigar mais a fundo, pode fazer perguntas de seguimento na tela de dados.

Exemplo de uma execução de estatísticas

Considere uma tabela denominada telco_churn com os seguintes metadados:

Nome do campo Tipo
CustomerID STRING
Género STRING
Tenure INT64
InternetService STRING
StreamingTV STRING
OnlineBackup STRING
Reduzir STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Abandono BOOLEAN

Seguem-se algumas das consultas de exemplo que as estatísticas de dados geram para esta tabela:

  • Identificar clientes que subscreveram todos os serviços premium e são clientes há mais de 50 meses.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineBackup = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND Tenure > 50;
    
  • Identificar que serviço de Internet tem o maior número de clientes que cancelaram a subscrição.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifique as taxas de abandono por segmento entre os clientes de elevado valor.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
      * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Práticas recomendadas para melhorar as estatísticas geradas

Para melhorar a precisão das estatísticas geradas, siga estas práticas recomendadas:

Fundamente as informações nos resultados da criação de perfis de dados

Na IA generativa, a fundamentação é a capacidade de associar o resultado do modelo a fontes de informações verificáveis. Pode fundamentar as estatísticas geradas nos resultados da criação de perfis de dados. A análise do perfil de dados analisa as colunas nas suas tabelas do BigQuery e identifica características estatísticas comuns, como valores de dados típicos e distribuição de dados. Quando cria uma análise de criação de perfis de dados para uma tabela, pode optar por publicar os resultados da análise nas páginas do BigQuery e do Catálogo universal do Dataplex na Google Cloud consola. O BigQuery usa os resultados da análise do perfil de dados para criar consultas mais precisas e relevantes, fazendo o seguinte:

  1. Analisa os resultados da criação de perfis de dados para identificar padrões, tendências ou valores atípicos interessantes nos dados.
  2. Gera consultas focadas nestes padrões, tendências ou valores atípicos para descobrir estatísticas.
  3. Valida as consultas geradas com base nos resultados da criação de perfis de dados para garantir que as consultas devolvem resultados significativos.

Sem análises de criação de perfis de dados, ocorrem as seguintes situações:

  • É mais provável que as consultas geradas incluam cláusulas incorretas ou produzam resultados sem sentido.
  • As descrições das colunas geradas baseiam-se apenas no nome da coluna.

Certifique-se de que a análise de criação de perfis de dados da sua tabela está atualizada e que os resultados são publicados no BigQuery.

Pode ajustar as definições de criação de perfis de dados para aumentar o tamanho da amostragem e filtrar linhas e colunas. Depois de executar uma nova análise de criação de perfis de dados, regenere as estatísticas.

Adicione uma descrição da tabela

As descrições detalhadas das tabelas que descrevem o que quer analisar na sua tabela podem ajudar o Gemini no BigQuery a produzir estatísticas mais relevantes. Depois de adicionar uma descrição da tabela, volte a gerar as estatísticas.

Por exemplo, pode adicionar a seguinte descrição à tabelatelco_churn: "Esta tabela acompanha os dados de rotatividade de clientes, incluindo detalhes de subscrição, antiguidade e utilização do serviço, para prever o comportamento de rotatividade de clientes."

Se guardar a descrição da tabela gerada pelo Gemini, essa descrição é usada para gerar estatísticas futuras.

Adicione descrições de colunas

As descrições das colunas que explicam o que é cada coluna ou como uma coluna se relaciona com outra podem melhorar a qualidade das suas estatísticas. Depois de atualizar as descrições das colunas na tabela, regenere as estatísticas.

Por exemplo, pode adicionar as seguintes descrições a colunas específicas da tabela telco_churn:

  • Tenure: "O número de meses em que o cliente usa o serviço."
  • Churn: "Se o cliente deixou de usar o serviço. VERDADEIRO indica que o cliente já não usa o serviço. FALSO indica que o cliente está ativo."

Se guardar as descrições das colunas geradas pelo Gemini, essas descrições são usadas para gerar estatísticas futuras.

Gere estatísticas para uma tabela do BigQuery

Para gerar estatísticas para uma tabela do BigQuery, tem de aceder à entrada da tabela no BigQuery através do BigQuery Studio.

  1. Na Google Cloud consola, aceda ao BigQuery Studio.

    Aceda ao BigQuery Studio

  2. No painel Explorador, selecione a tabela para a qual quer gerar estatísticas.

  3. Clique no separador Estatísticas. Se o separador estiver vazio, significa que as estatísticas desta tabela ainda não foram geradas.

  4. Para acionar o pipeline de estatísticas, clique em Gerar estatísticas.

    Demora alguns minutos até que as estatísticas sejam preenchidas.

    Se estiverem disponíveis resultados da análise do perfil de dados publicados para a tabela, estes são usados para gerar estatísticas. Caso contrário, as estatísticas são geradas com base nos nomes e nas descrições das colunas.

  5. No separador Estatísticas, explore as perguntas de linguagem natural geradas.

  6. Para ver a consulta SQL que responde a uma pergunta, clique na pergunta.

  7. Para abrir uma consulta no BigQuery, clique em Copiar para consulta.

  8. Para fazer perguntas de seguimento, faça o seguinte:

    1. Clique em Fazer outra pergunta. A consulta é aberta numa nova tela de dados.

    2. Clique em Executar e, de seguida, em Consultar estes resultados.

    3. Para fazer uma pergunta de seguimento, introduza um comando no campo de comando de linguagem natural ou edite o SQL no editor de consultas.

  9. Para gerar um novo conjunto de consultas, clique em Gerar estatísticas e acione novamente o pipeline.

Depois de gerar estatísticas para uma tabela, qualquer pessoa com a autorização dataplex.datascans.getDatae acesso à tabela pode ver essas estatísticas.

Gere estatísticas para uma tabela externa do BigQuery

As estatísticas de dados do BigQuery suportam a geração de estatísticas para tabelas externas do BigQuery com dados no Cloud Storage. A sua conta e a conta de serviço do catálogo universal do Dataplex para o projeto atual têm de ter a função Visualizador de objetos do Storage (roles/storage.objectViewer) no contentor do Cloud Storage que contém os dados. Para mais informações, consulte o artigo Adicione um principal a uma política ao nível do contentor.

Para gerar estatísticas para uma tabela externa do BigQuery, siga as instruções descritas na secção Gere estatísticas para uma tabela do BigQuery deste documento.

Gere estatísticas para uma tabela do BigLake

Para gerar estatísticas para uma tabela do BigLake, siga estes passos:

  1. Ative a API BigQuery Connection no seu projeto.

    Ative a API BigQuery Connection

  2. Crie uma ligação do BigQuery. Para mais informações, consulte o artigo Faça a gestão das associações.

  3. Conceda a função de IAM (roles/storage.objectViewer) de visualizador de objetos de armazenamento à conta de serviço correspondente à ligação do BigQuery que criou.

    Pode obter o ID da conta de serviço nos detalhes da associação.

  4. Para gerar estatísticas, siga as instruções descritas na secção Gere estatísticas para uma tabela do BigQuery deste documento.

Gere descrições de tabelas e colunas

O Gemini no BigQuery gera automaticamente descrições de tabelas e colunas quando gera estatísticas de dados. Pode editar estas descrições conforme necessário e, em seguida, guardá-las nos metadados da tabela. As descrições guardadas são usadas para gerar estatísticas futuras.

Para gerar descrições de tabelas e colunas, siga estes passos:

  1. Gere estatísticas seguindo as instruções descritas na secção relevante deste documento:

  2. Clique no separador Esquema.

  3. Clique em Ver descrições das colunas.

    São apresentadas a descrição da tabela e as descrições das colunas geradas.

  4. Para editar e guardar a descrição da tabela gerada, faça o seguinte:

    1. Na secção Descrição da tabela, clique em Guardar nos detalhes.

    2. Para substituir a descrição atual pela descrição gerada, clique em Copiar descrição sugerida.

    3. Edite a descrição da tabela conforme necessário e, de seguida, clique em Guardar nos detalhes.

      A descrição da tabela é atualizada imediatamente.

  5. Para editar e guardar as descrições de colunas geradas, faça o seguinte:

    1. Na secção Descrições das colunas, clique em Guardar no esquema.

      As descrições das colunas geradas são preenchidas no campo Nova descrição para cada coluna.

    2. Edite as descrições das colunas conforme necessário e, de seguida, clique em Guardar.

      As descrições das colunas são atualizadas imediatamente.

  6. Para fechar o painel de pré-visualização, clique em Fechar.

Preços

Para ver detalhes sobre os preços desta funcionalidade, consulte a vista geral dos preços do Gemini no BigQuery.

Quotas e limites

Para informações sobre quotas e limites desta funcionalidade, consulte o artigo Quotas para o Gemini no BigQuery.

Limitações

  • As estatísticas de dados estão disponíveis para tabelas do BigQuery, tabelas do BigLake, tabelas externas e vistas.
  • Para clientes com várias nuvens, os dados de outras nuvens não estão disponíveis.
  • As estatísticas de dados não suportam os tipos de colunas Geo nem JSON.
  • As execuções de estatísticas não garantem a apresentação de consultas sempre. Para aumentar a probabilidade de gerar consultas mais apelativas, reinicie o pipeline de estatísticas.
  • Para tabelas com controlos de acesso ao nível da coluna (ACLs) e autorizações de utilizador restritas, pode gerar estatísticas se tiver acesso de leitura a todas as colunas da tabela. Para executar as consultas geradas, tem de ter autorizações suficientes.
  • As descrições das colunas são geradas para um máximo de 350 colunas numa tabela.

Localizações

Pode usar estatísticas de dados em todas as localizações do BigQuery. O Gemini no BigQuery funciona a nível global, pelo que não pode restringir o processamento de dados a uma região específica. Para saber mais sobre as localizações onde o Gemini no BigQuery processa dados, consulte o artigo Localizações de serviço do Gemini.

O que se segue?