Gere insights de dados no BigQuery
Para receber suporte, envie um e-mail para dataplex-data-insights-help@google.com.
Os insights de dados oferecem uma maneira automatizada de explorar e entender seus dados. Ela usa o Gemini para gerar consultas com base nos metadados de uma tabela e permite descobrir padrões, avaliar a qualidade dos dados e realizar análises estatísticas.
Neste documento, descrevemos os principais recursos de insights de dados e o processo de automatização da geração de consultas para uma exploração de dados perspicaz.
Sobre os insights de dados
Os analistas de dados enfrentam o problema da inicialização a frio na exploração de dados ao analisar um novo conjunto de dados com pouco ou nenhum conhecimento prévio. O problema geralmente envolve incertezas sobre a estrutura dos dados, os principais padrões e insights relevantes. Ao usar a geração automatizada de consultas com base em metadados, os insights de dados resolvem o problema de inicialização a frio na exploração de dados. Os insights fornecem dicas valiosas para ajudar você a tomar decisões informadas e receber insights mais profundos sobre seus dados. Em vez de começar do zero, é possível iniciar a exploração de dados mais rapidamente com consultas significativas que oferecem insights valiosos.
As consultas geradas com insights de dados são fundamentadas com dados de verificação de perfil publicados. Os insights de dados usam dados de verificação de perfil publicados para criar consultas que apresentam resultados, oferecendo uma recuperação de informações eficiente e confiável. Isso acelera significativamente o início do processo de análise de dados e permite detalhar os dados com uma direção e um propósito mais claros.
Os insights de dados servem como uma ferramenta de orientação que resolve o desafio comum de navegar por conjuntos de dados desconhecidos, permitindo que você tome decisões informadas e descubra padrões mais rapidamente durante a exploração de dados.
Exemplo de execução de insights
Considere uma tabela chamada telco_churn
com os seguintes metadados:
Nome do campo | Tipo |
---|---|
CustomerID | STRING |
Gênero | STRING |
Tempo de casa | INT64 |
PhoneService | STRING |
OnlineBackup | STRING |
Dependentes | BOOLEAN |
Contrato | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
Churn | BOOLEAN |
Veja a seguir algumas das consultas de amostra que os insights de dados geram para essa tabela:
Identifique os clientes que assinaram todos os serviços premium e são clientes há mais de 50 meses.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineSecurity = 'Yes' AND OnlineBackup = 'Yes' AND DeviceProtection = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND StreamingMovies = 'Yes' AND Tenure > 50;
Identifique qual serviço de Internet tem mais clientes desistentes.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
Identifique as taxas de desistência de usuários por segmento entre os clientes de alto valor.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Sobre insights embasados usando verificações de perfil
Os insights de dados usam os dados de verificação de perfil publicados para melhorar a precisão das consultas geradas. Os dados da verificação de perfil oferecem informações valiosas sobre a distribuição e os tipos de dados, bem como os resumos estatísticos do conjunto de dados.
Sobre os dados da verificação de perfil
Os dados da verificação do perfil são os metadados que descrevem o conteúdo de uma tabela. Ele inclui as seguintes informações:
- Tipos de dados das colunas
- Valores mínimos e máximos
- Distribuição de valores
- Valores nulos ou ausentes
- Principais valores
- Valores exclusivos e suas frequências
Os insights de dados usam essas informações para gerar consultas personalizadas para uma tabela específica.
Como os insights de dados fundamentam consultas usando dados de verificação de perfil
Os insights de dados usam dados da verificação de perfil para criar consultas baseadas na distribuição de dados e nos padrões reais dentro do conjunto de dados. Esse processo envolve as seguintes etapas:
- Analisar os dados da verificação de perfil para identificar padrões, tendências ou discrepâncias interessantes nos dados.
- Gerar consultas focadas nesses padrões, tendências ou outliers para descobrir insights
- Validar as consultas geradas em relação aos dados da verificação de perfil para garantir que as consultas retornem resultados significativos.
Dicas para maximizar os benefícios dos insights de dados
As consultas fundamentadas garantem que os insights recebidos sejam precisos, relevantes e acionáveis, permitindo que você tome decisões melhores baseadas em dados. Para aproveitar ao máximo as consultas embasadas usando dados de verificação de perfil, siga estas dicas:
- Certifique-se de que sua tabela tenha dados atualizados de verificação de perfil publicados. Isso ajuda os insights de dados a gerar consultas mais precisas e relevantes.
- Confira as consultas geradas para entender como elas são fundamentadas nos dados da verificação do perfil. Isso permite interpretar os resultados e receber insights mais profundos sobre seus dados.
- Ajuste as configurações de verificação de perfil da sua tabela ou forneça mais contexto para insights de dados, caso as consultas geradas não sejam relevantes ou úteis.
Preços
O recurso de insights de dados do BigQuery não é cobrado durante o pré-lançamento.
Limitações
- Os insights de dados estão disponíveis para visualizações e tabelas do BigQuery, do BigLake e externas.
- Para clientes que têm várias nuvens, os dados de outras nuvens não estão disponíveis.
- Os insights de dados não são compatíveis com os tipos de coluna
Geo
ouJSON
. - A execução de insights não garante a apresentação de consultas todas as vezes. Para aumentar a probabilidade de gerar consultas mais engajadoras, reinicie o pipeline de insights.
- Para tabelas com controle de acesso (ACLs) no nível da coluna e permissões de usuário restritas, será possível gerar insights se você tiver acesso de leitura a todas as colunas da tabela. Para executar as consultas geradas, você precisa ter permissões suficientes.
Antes de começar
Papéis e permissões necessárias
Para receber as permissões necessárias para usar os insights de dados, peça ao administrador para conceder a você os seguintes papéis do IAM no projeto:
Execute o pipeline de insights:
Papel do IAM de usuário do Cloud AI Companion (
roles/cloudaicompanion.user
) na conta de serviço do projeto em que você aciona a verificação de insightsO endereço de e-mail da conta de serviço tem o seguinte formato:
service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com
Permissão
dataplex.datascans.create
no projetoPermissão
bigquery.tables.getData
na tabela do BigQueryAcesso de leitura a todas as colunas da tabela
Conferir insights gerados:
dataplex.datascans.getData
na verificação de dados gerada
Consultas em solo usando verificações de perfil:
Papel do IAM de Leitor de dados do BigQuery DataScan (
roles/dataplex.dataScanDataViewer
) na conta de serviço (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com
)Permissão
dataplex.datascans.getData
na verificação do perfil de dados publicados
Para mais informações sobre como conceder papéis, consulte Gerenciar o acesso a contas de serviço.
Também é possível receber as permissões necessárias com papéis personalizados ou outros papéis predefinidos.
Ativar APIs
Para usar insights de dados, ative as seguintes APIs no seu projeto:
Para mais informações sobre como ativar a API Gemini, consulte Ativar o Gemini Code Assist em um projeto do Google Cloud.
Gerar insights para uma tabela do BigQuery
Para gerar insights de uma tabela do BigQuery, acesse a entrada da tabela no BigQuery usando o BigQuery Studio.
No console do Google Cloud, acesse o BigQuery Studio.
Procure a entrada da tabela no BigQuery.
Clique na guia Insights. Se a guia estiver vazia, isso significa que os insights da tabela ainda não foram gerados.
Para acionar o pipeline de insights, clique em Gerar insights.
Leva de 5 a 10 minutos para que os insights sejam preenchidos.
Se uma verificação de perfil publicada para a tabela for acessível, ela será usada para gerar insights abrangentes. Caso contrário, os insights são formulados com base nos nomes das colunas e suas respectivas descrições. Essa abordagem garante que você receba insights independentemente da disponibilidade de uma verificação de perfil.
Na guia Insights, veja as consultas geradas e as descrições delas.
Para abrir uma consulta no BigQuery, clique em Abrir no BigQuery.
Para gerar um novo conjunto de consultas, clique em Gerar insights e acione o pipeline novamente.
Gerar insights para uma tabela externa do BigQuery
Os insights de dados do BigQuery oferecem suporte a tabelas externas do BigQuery que estão localizadas no mesmo projeto do Google Cloud. Se a tabela do BigQuery fizer referência a dados armazenados no Cloud Storage em outro projeto do Google Cloud, a geração de insights falhará.
Para gerar insights de uma tabela externa do BigQuery, siga as instruções descritas na seção Gerar insights de uma tabela do BigQuery deste documento.
Gerar insights para uma tabela do BigLake
Para gerar insights para uma tabela do BigLake, siga estas etapas:
Ative a API BigQuery Connection no projeto.
Criar uma conexão do BigQuery. Para mais informações, consulte Gerenciar conexões.
Conceda o papel do IAM de Leitor de objetos do Storage (
roles/storage.objectViewer
) à conta de serviço correspondente à conexão do BigQuery que você criou.Você pode recuperar o ID da conta de serviço nos detalhes da conexão.
Para gerar insights, siga as instruções descritas na seção Gerar insights para uma tabela do BigQuery deste documento.
A seguir
- Saiba mais sobre a criação de perfil de dados do Dataplex.
- Saiba como escrever consultas com a assistência do Gemini no BigQuery.