Gere insights de dados no BigQuery

Para receber suporte, envie um e-mail para dataplex-data-insights-help@google.com.

Os insights de dados oferecem uma maneira automatizada de explorar e entender seus dados. Ela usa o Gemini para gerar consultas com base nos metadados de uma tabela e permite descobrir padrões, avaliar a qualidade dos dados e realizar análises estatísticas.

Neste documento, descrevemos os principais recursos de insights de dados e o processo de automatização da geração de consultas para uma exploração de dados perspicaz.

Sobre os insights de dados

Os analistas de dados enfrentam o problema da inicialização a frio na exploração de dados ao analisar um novo conjunto de dados com pouco ou nenhum conhecimento prévio. O problema geralmente envolve incertezas sobre a estrutura dos dados, os principais padrões e insights relevantes. Ao usar a geração automatizada de consultas com base em metadados, os insights de dados resolvem o problema de inicialização a frio na exploração de dados. Os insights fornecem dicas valiosas para ajudar você a tomar decisões informadas e receber insights mais profundos sobre seus dados. Em vez de começar do zero, é possível iniciar a exploração de dados mais rapidamente com consultas significativas que oferecem insights valiosos.

As consultas geradas com insights de dados são fundamentadas com dados de verificação de perfil publicados. Os insights de dados usam dados de verificação de perfil publicados para criar consultas que apresentam resultados, oferecendo uma recuperação de informações eficiente e confiável. Isso acelera significativamente o início do processo de análise de dados e permite detalhar os dados com uma direção e um propósito mais claros.

Os insights de dados servem como uma ferramenta de orientação que resolve o desafio comum de navegar por conjuntos de dados desconhecidos, permitindo que você tome decisões informadas e descubra padrões mais rapidamente durante a exploração de dados.

Exemplo de execução de insights

Considere uma tabela chamada telco_churn com os seguintes metadados:

Nome do campo Tipo
CustomerID STRING
Gênero STRING
Tempo de casa INT64
PhoneService STRING
OnlineBackup STRING
Dependentes BOOLEAN
Contrato STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Churn BOOLEAN

Veja a seguir algumas das consultas de amostra que os insights de dados geram para essa tabela:

  • Identifique os clientes que assinaram todos os serviços premium e são clientes há mais de 50 meses.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineSecurity = 'Yes'
      AND OnlineBackup = 'Yes'
      AND DeviceProtection = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND StreamingMovies = 'Yes'
      AND Tenure > 50;
    
  • Identifique qual serviço de Internet tem mais clientes desistentes.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifique as taxas de desistência de usuários por segmento entre os clientes de alto valor.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
    * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Sobre insights embasados usando verificações de perfil

Os insights de dados usam os dados de verificação de perfil publicados para melhorar a precisão das consultas geradas. Os dados da verificação de perfil oferecem informações valiosas sobre a distribuição e os tipos de dados, bem como os resumos estatísticos do conjunto de dados.

Sobre os dados da verificação de perfil

Os dados da verificação do perfil são os metadados que descrevem o conteúdo de uma tabela. Ele inclui as seguintes informações:

  • Tipos de dados das colunas
  • Valores mínimos e máximos
  • Distribuição de valores
  • Valores nulos ou ausentes
  • Principais valores
  • Valores exclusivos e suas frequências

Os insights de dados usam essas informações para gerar consultas personalizadas para uma tabela específica.

Como os insights de dados fundamentam consultas usando dados de verificação de perfil

Os insights de dados usam dados da verificação de perfil para criar consultas baseadas na distribuição de dados e nos padrões reais dentro do conjunto de dados. Esse processo envolve as seguintes etapas:

  • Analisar os dados da verificação de perfil para identificar padrões, tendências ou discrepâncias interessantes nos dados.
  • Gerar consultas focadas nesses padrões, tendências ou outliers para descobrir insights
  • Validar as consultas geradas em relação aos dados da verificação de perfil para garantir que as consultas retornem resultados significativos.

Dicas para maximizar os benefícios dos insights de dados

As consultas fundamentadas garantem que os insights recebidos sejam precisos, relevantes e acionáveis, permitindo que você tome decisões melhores baseadas em dados. Para aproveitar ao máximo as consultas embasadas usando dados de verificação de perfil, siga estas dicas:

  • Certifique-se de que sua tabela tenha dados atualizados de verificação de perfil publicados. Isso ajuda os insights de dados a gerar consultas mais precisas e relevantes.
  • Confira as consultas geradas para entender como elas são fundamentadas nos dados da verificação do perfil. Isso permite interpretar os resultados e receber insights mais profundos sobre seus dados.
  • Ajuste as configurações de verificação de perfil da sua tabela ou forneça mais contexto para insights de dados, caso as consultas geradas não sejam relevantes ou úteis.

Preços

O recurso de insights de dados do BigQuery não é cobrado durante o pré-lançamento.

Limitações

  • Os insights de dados estão disponíveis para visualizações e tabelas do BigQuery, do BigLake e externas.
  • Para clientes que têm várias nuvens, os dados de outras nuvens não estão disponíveis.
  • Os insights de dados não são compatíveis com os tipos de coluna Geo ou JSON.
  • A execução de insights não garante a apresentação de consultas todas as vezes. Para aumentar a probabilidade de gerar consultas mais engajadoras, reinicie o pipeline de insights.
  • Para tabelas com controle de acesso (ACLs) no nível da coluna e permissões de usuário restritas, será possível gerar insights se você tiver acesso de leitura a todas as colunas da tabela. Para executar as consultas geradas, você precisa ter permissões suficientes.

Antes de começar

Papéis e permissões necessárias

Para receber as permissões necessárias para usar os insights de dados, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:

  • Execute o pipeline de insights:

    • Papel do IAM de usuário do Cloud AI Companion (roles/cloudaicompanion.user) na conta de serviço do projeto em que você aciona a verificação de insights

      O endereço de e-mail da conta de serviço tem o seguinte formato:

      service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com

    • Permissão dataplex.datascans.create no projeto

    • Permissão bigquery.tables.getData na tabela do BigQuery

    • Acesso de leitura a todas as colunas da tabela

  • Conferir insights gerados:

    • dataplex.datascans.getData na verificação de dados gerada
  • Consultas em solo usando verificações de perfil:

    • Papel do IAM de Leitor de dados do BigQuery DataScan (roles/dataplex.dataScanDataViewer) na conta de serviço (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com)

    • Permissão dataplex.datascans.getData na verificação do perfil de dados publicados

Para mais informações sobre como conceder papéis, consulte Gerenciar o acesso a contas de serviço.

Também é possível receber as permissões necessárias com papéis personalizados ou outros papéis predefinidos.

Ativar APIs

Para usar insights de dados, ative as seguintes APIs no seu projeto:

Para mais informações sobre como ativar a API Gemini, consulte Ativar o Gemini Code Assist em um projeto do Google Cloud.

Gerar insights para uma tabela do BigQuery

Para gerar insights de uma tabela do BigQuery, acesse a entrada da tabela no BigQuery usando o BigQuery Studio.

  1. No console do Google Cloud, acesse o BigQuery Studio.

    Acessar o BigQuery Studio

  2. Procure a entrada da tabela no BigQuery.

  3. Clique na guia Insights. Se a guia estiver vazia, isso significa que os insights da tabela ainda não foram gerados.

  4. Para acionar o pipeline de insights, clique em Gerar insights.

    Leva de 5 a 10 minutos para que os insights sejam preenchidos.

    Se uma verificação de perfil publicada para a tabela for acessível, ela será usada para gerar insights abrangentes. Caso contrário, os insights são formulados com base nos nomes das colunas e suas respectivas descrições. Essa abordagem garante que você receba insights independentemente da disponibilidade de uma verificação de perfil.

  5. Na guia Insights, veja as consultas geradas e as descrições delas.

  6. Para abrir uma consulta no BigQuery, clique em Abrir no BigQuery.

  7. Para gerar um novo conjunto de consultas, clique em Gerar insights e acione o pipeline novamente.

Gerar insights para uma tabela externa do BigQuery

Os insights de dados do BigQuery oferecem suporte a tabelas externas do BigQuery que estão localizadas no mesmo projeto do Google Cloud. Se a tabela do BigQuery fizer referência a dados armazenados no Cloud Storage em outro projeto do Google Cloud, a geração de insights falhará.

Para gerar insights de uma tabela externa do BigQuery, siga as instruções descritas na seção Gerar insights de uma tabela do BigQuery deste documento.

Gerar insights para uma tabela do BigLake

Para gerar insights para uma tabela do BigLake, siga estas etapas:

  1. Ative a API BigQuery Connection no projeto.

    Ative a API BigQuery Connection.

  2. Criar uma conexão do BigQuery. Para mais informações, consulte Gerenciar conexões.

  3. Conceda o papel do IAM de Leitor de objetos do Storage (roles/storage.objectViewer) à conta de serviço correspondente à conexão do BigQuery que você criou.

    Você pode recuperar o ID da conta de serviço nos detalhes da conexão.

  4. Para gerar insights, siga as instruções descritas na seção Gerar insights para uma tabela do BigQuery deste documento.

A seguir