Gere insights de dados no BigQuery

Para receber suporte, envie um e-mail para dataplex-data-insights-help@google.com.

Os insights de dados oferecem uma maneira automatizada de explorar e entender seus dados. Ela usa o Gemini para gerar consultas com base nos metadados de uma tabela e permite descobrir padrões, avaliar a qualidade dos dados e realizar análises estatísticas.

Neste documento, descrevemos os principais recursos de insights de dados e o processo de automatização da geração de consultas para uma exploração de dados perspicaz.

Sobre os insights de dados

Os analistas de dados enfrentam o problema da inicialização a frio na exploração de dados ao analisar um novo conjunto de dados com pouco ou nenhum conhecimento prévio. O problema geralmente envolve incertezas sobre a estrutura dos dados, os principais padrões e insights relevantes. Ao usar a geração automatizada de consultas com base em metadados, os insights de dados resolvem o problema de inicialização a frio na exploração de dados. Os insights fornecem dicas valiosas para ajudar você a tomar decisões informadas e receber insights mais profundos sobre seus dados. Em vez de começar do zero, é possível iniciar a exploração de dados mais rapidamente com consultas significativas que oferecem insights valiosos.

As consultas geradas com insights de dados são fundamentadas com dados de verificação de perfil publicados. Os insights de dados usam dados de verificação de perfil publicados para criar consultas que apresentam resultados, oferecendo uma recuperação de informações eficiente e confiável. Isso acelera significativamente o início do processo de análise de dados e permite detalhar os dados com uma direção e um propósito mais claros.

Os insights de dados servem como uma ferramenta de orientação que resolve o desafio comum de navegar por conjuntos de dados desconhecidos, permitindo que você tome decisões informadas e descubra padrões mais rapidamente durante a exploração de dados.

Exemplo de execução de insights

Considere uma tabela chamada telco_churn com os seguintes metadados:

Nome do campo Tipo
CustomerID STRING
Gênero STRING
Tempo de casa INT64
PhoneService STRING
OnlineBackup STRING
Dependentes BOOLEAN
Contrato STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Desligamento BOOLEAN

Veja a seguir algumas das consultas de amostra que os insights de dados geram para essa tabela:

  • Identifique os clientes que assinaram todos os serviços premium e são clientes há mais de 50 meses.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineSecurity = 'Yes'
      AND OnlineBackup = 'Yes'
      AND DeviceProtection = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND StreamingMovies = 'Yes'
      AND Tenure > 50;
    
  • Identifique qual serviço de Internet tem mais clientes desistentes.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifique as taxas de desistência de usuários por segmento entre os clientes de alto valor.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
    * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Sobre insights embasados usando verificações de perfil

Quando você criar uma verificação de perfil de dados em uma tabela, é possível publicar os resultados da verificação no BigQuery e o Data Catalog. O BigQuery usa a verificação de perfil publicada dados para gerar consultas mais precisas e relevantes sobre a tabela.

É possível conferir os dados da verificação de perfil publicados no console do Google Cloud. Para mais informações sobre como visualizar dados de verificação de perfil publicados, consulte Ver resultados publicados.

Os dados da verificação de perfil oferecem informações sobre a distribuição e os tipos de dados, bem como os resumos estatísticos do conjunto de dados. A verificação é usada para gerar insights na tabela. Se não houver verificações disponíveis, os insights serão formulados com base nos nomes das colunas e suas respectivas descrições.

Para saber mais sobre as verificações de perfis, consulte Gere insights de perfil de dados com verificações.

Para saber mais sobre como criar e publicar verificações de perfis, consulte Crie uma verificação de perfil de dados.

As seções a seguir descrevem como os insights de dados usam o perfil publicado digitalizar dados para consultas empíricas.

Sobre os dados da verificação de perfil

Os dados da verificação do perfil são os metadados que descrevem o conteúdo de uma tabela. Ele inclui as seguintes informações:

  • Tipos de dados das colunas
  • Valores mínimos e máximos
  • Distribuição de valores
  • Valores nulos ou ausentes
  • Principais valores
  • Valores exclusivos e suas frequências

Os insights de dados usam essas informações para gerar consultas personalizadas para uma tabela específica.

Como os insights de dados fundamentam consultas usando dados de verificação de perfil

Os insights de dados usam dados da verificação de perfil para criar consultas baseadas na distribuição de dados e nos padrões reais dentro do conjunto de dados. Esse processo envolve as seguintes etapas:

  • Analisar os dados da verificação de perfil para identificar padrões, tendências ou discrepâncias interessantes nos dados.
  • Gerar consultas focadas nesses padrões, tendências ou outliers para descobrir insights
  • Validar as consultas geradas em relação aos dados da verificação de perfil para garantir que as consultas retornem resultados significativos.

Dicas para maximizar os benefícios dos insights de dados

As consultas fundamentadas garantem que os insights recebidos sejam precisos, relevantes e acionáveis, permitindo que você tome decisões melhores baseadas em dados. Para aproveitar ao máximo as consultas embasadas usando dados de verificação de perfil, siga estas dicas:

  • Certifique-se de que sua tabela tenha dados atualizados de verificação de perfil publicados. Isso ajuda os insights de dados a gerar consultas mais precisas e relevantes.
  • Confira as consultas geradas para entender como elas são fundamentadas nos dados da verificação do perfil. Isso permite interpretar os resultados e receber insights mais profundos sobre seus dados.
  • Ajuste as configurações de verificação de perfil da sua tabela ou forneça mais contexto para insights de dados, caso as consultas geradas não sejam relevantes ou úteis.

Preços

O recurso de insights de dados do BigQuery não é cobrado durante o pré-lançamento.

Limitações

  • Os insights de dados estão disponíveis para visualizações e tabelas do BigQuery, do BigLake e externas.
  • Para clientes que têm várias nuvens, os dados de outras nuvens não estão disponíveis.
  • Os insights de dados não são compatíveis com os tipos de coluna Geo ou JSON.
  • A execução de insights não garante a apresentação de consultas todas as vezes. Para aumentar a probabilidade de gerar consultas mais engajadoras, reinicie o pipeline de insights.
  • Para tabelas com controle de acesso (ACLs) no nível da coluna e permissões de usuário restritas, será possível gerar insights se você tiver acesso de leitura a todas as colunas da tabela. Para executar as consultas geradas, você precisa ter permissões suficientes.

Antes de começar

Papéis e permissões necessárias

Para criar, gerenciar e recuperar insights de dados, peça ao administrador para conceder os seguintes papéis do IAM:

Para ter acesso somente leitura aos insights gerados, peça ao administrador para conceder a você o seguinte papel do IAM:

Para mais informações sobre como conceder papéis, consulte Gerenciar o acesso a contas de serviço.

Também é possível receber as permissões necessárias com papéis personalizados ou outros papéis predefinidos.

Ativar APIs

Para usar insights de dados, ative as seguintes APIs no seu projeto:

Para mais informações sobre como ativar a API Cloud AI Companion, consulte Ativar a API Cloud AI Companion em um projeto do Google Cloud

Gerar insights para uma tabela do BigQuery

Para gerar insights de uma tabela do BigQuery, acesse a entrada da tabela no BigQuery usando o BigQuery Studio.

  1. No console do Google Cloud, acesse o BigQuery Studio.

    Acessar o BigQuery Studio

  2. No painel Explorer, selecione a tabela para gerar insights.

  3. Clique na guia Insights. Se a guia estiver vazia, isso significa que os insights da tabela ainda não foram gerados.

  4. Para acionar o pipeline de insights, clique em Gerar insights.

    Leva de 5 a 10 minutos para que os insights sejam preenchidos.

    Se uma verificação de perfil publicada para a tabela for acessível, ela será usada para gerar insights abrangentes. Caso contrário, os insights são formulados com base nos nomes das colunas e suas respectivas descrições. Essa abordagem garante que você receba insights independentemente da disponibilidade de uma verificação de perfil.

  5. Na guia Insights, veja as consultas geradas e as descrições delas.

  6. Para abrir uma consulta no BigQuery, clique em Abrir no BigQuery.

  7. Para gerar um novo conjunto de consultas, clique em Gerar insights e acione o pipeline novamente.

Gerar insights para uma tabela externa do BigQuery

Os insights de dados do BigQuery oferecem suporte a tabelas externas do BigQuery que estão localizadas no mesmo projeto do Google Cloud. Se a tabela do BigQuery fizer referência a dados armazenados no Cloud Storage em outro projeto do Google Cloud, a geração de insights falhará.

Para gerar insights de uma tabela externa do BigQuery, siga as instruções descritas na seção Gerar insights de uma tabela do BigQuery deste documento.

Gerar insights para uma tabela do BigLake

Para gerar insights para uma tabela do BigLake, siga estas etapas:

  1. Ative a API BigQuery Connection no projeto.

    Ative a API BigQuery Connection.

  2. Criar uma conexão do BigQuery. Para mais informações, consulte Gerenciar conexões.

  3. Conceda o papel do IAM de Leitor de objetos do Storage (roles/storage.objectViewer) à conta de serviço correspondente à conexão do BigQuery que você criou.

    Você pode recuperar o ID da conta de serviço nos detalhes da conexão.

  4. Para gerar insights, siga as instruções descritas na seção Gerar insights para uma tabela do BigQuery deste documento.

A seguir