Gere insights de dados no BigQuery
Os insights de dados oferecem uma maneira automatizada de explorar e entender seus dados. Com os insights de dados, o Gemini usa metadados para gerar perguntas em linguagem natural sobre a tabela e as consultas para respondê-las. Isso ajuda a descobrir padrões, avaliar a qualidade dos dados e realizar análises estatísticas.
Neste documento, descrevemos os principais recursos de insights de dados e o processo de automatização da geração de consultas para uma exploração de dados perspicaz.
Antes de começar
Os insights de dados são gerados usando o Gemini no BigQuery. Para começar a gerar insights, primeiro você precisa configurar o Gemini no BigQuery. O Gemini pode não processar seus dados na mesma região em que eles estão armazenados. Para mais informações, consulte Locais de veiculação do Gemini.
Funções exigidas
Para criar, gerenciar e recuperar insights de dados, peça ao administrador para conceder os seguintes papéis do IAM:
Editor do DataScan Dataplex (
roles/dataplex.dataScanEditor
) ou Administrador do DataScan Dataplex (roles/dataplex.dataScanAdmin
) do projeto em que você quer gerar insights.Leitor de dados do BigQuery (
roles/bigquery.dataViewer
) nas tabelas do BigQuery em que você quer gerar insights.Editor de dados do BigQuery (
roles/bigquery.dataEditor
) nas tabelas do BigQuery em que você quer gerar insights.Usuário do BigQuery (
roles/bigquery.user
) ou Usuário do BigQuery Studio (roles/bigquery.studioUser
) no projeto em que você quer gerar insights.
Para ter acesso somente leitura aos insights gerados, peça ao administrador para conceder a você o seguinte papel do IAM:
- Leitor de dados do DataScan Dataplex (
roles/dataplex.dataScanDataViewer
) no projeto que contém as tabelas do BigQuery para as quais você quer visualizar insights.
Para mais informações sobre como conceder papéis, consulte Gerenciar o acesso a contas de serviço.
Também é possível receber as permissões necessárias com papéis personalizados ou outros papéis predefinidos. Para conferir as permissões exatas necessárias para gerar insights, abra a seção Permissões necessárias:
Permissões necessárias
bigquery.jobs.create
bigquery.tables.get
bigquery.tables.getData
dataplex.datascans.create
dataplex.datascans.get
dataplex.datascans.getData
dataplex.datascans.run
Ativar APIs
Para usar insights de dados, ative as seguintes APIs no seu projeto:
Para mais informações sobre como ativar a API Gemini para o Google Cloud, consulte Ativar a API Gemini para o Google Cloud em um projeto do Google Cloud.
Sobre os insights de dados
Ao analisar uma tabela nova e desconhecida, os analistas de dados geralmente enfrentam o problema da inicialização a frio. O problema geralmente envolve incertezas sobre a estrutura dos dados, os principais padrões e insights relevantes nos dados, dificultando o início da criação de consultas.
Os insights de dados resolvem o problema de inicialização a frio gerando consultas de linguagem natural e os equivalentes em SQL com base nos metadados de uma tabela. Em vez de começar com um editor de consulta vazio, você pode iniciar rapidamente a exploração de dados com consultas significativas que oferecem insights valiosos. Para investigar mais, você pode fazer perguntas de acompanhamento na tela de dados.
Exemplo de execução de insights
Considere uma tabela chamada telco_churn
com os seguintes metadados:
Nome do campo | Tipo |
---|---|
CustomerID | STRING |
Gênero | STRING |
Tempo de casa | INT64 |
InternetService | STRING |
StreamingTV | STRING |
OnlineBackup | STRING |
Contrato | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
Desligamento | BOOLEAN |
Veja a seguir algumas das consultas de amostra que os insights de dados geram para essa tabela:
Identifique os clientes que assinaram todos os serviços premium e são clientes há mais de 50 meses.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;
Identifique qual serviço de Internet tem mais clientes desistentes.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
Identifique as taxas de desistência de usuários por segmento entre os clientes de alto valor.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Práticas recomendadas
Para melhorar a precisão dos insights gerados, siga estas práticas recomendadas:
Basear insights nos resultados da criação de perfil de dados
Na IA generativa, embasamento é a capacidade de conectar a saída do modelo a fontes de informações verificáveis. É possível fundamentar os insights gerados nos resultados da criação de perfil de dados. A criação de perfil de dados analisa as colunas nas tabelas do BigQuery e identifica características estatísticas comuns, como valores de dados típicos e distribuição de dados. Quando você cria uma verificação de perfil de dados em uma tabela, é possível publicar os resultados da verificação no BigQuery e no Dataplex Catalog. O BigQuery usa os resultados do perfil de dados para criar consultas mais precisas e relevantes fazendo o seguinte:
- Analisa os resultados do perfil de dados para identificar padrões, tendências ou outliers interessantes nos dados.
- Gera consultas focadas nesses padrões, tendências ou outliers para descobrir insights.
- Valida as consultas geradas em relação aos resultados do perfil de dados para garantir que as consultas retornem resultados significativos.
Sem verificações de perfil de dados, as consultas geradas pelo Gemini têm mais chances de incluir cláusulas imprecisas ou produzir resultados sem sentido.
Verifique se a verificação de perfil de dados da tabela está atualizada e se os resultados foram publicados no BigQuery.
É possível ajustar as configurações de criação de perfil de dados para aumentar o tamanho da amostra e filtrar linhas e colunas. Depois de executar uma nova verificação de perfil de dados, gere novamente os insights.
Adicionar uma descrição de tabela
Descrições detalhadas que descrevem o que você quer analisar na tabela podem ajudar o Gemini no BigQuery a produzir insights mais relevantes. Depois de adicionar uma descrição da tabela, gere novamente os insights.
Por exemplo, você pode adicionar a seguinte descrição à
tabela telco_churn
: "Esta tabela rastreia dados de cancelamento de clientes,
incluindo detalhes de assinatura, tempo de permanência e uso do serviço, para prever o comportamento de
cancelamento do cliente".
Adicionar descrições de colunas
As descrições de colunas que explicam o que cada coluna é ou como uma coluna se relaciona a outra podem melhorar a qualidade dos seus insights. Depois de atualizar as descrições das colunas na tabela, gere novamente os insights.
Por exemplo, você pode adicionar as descrições a seguir a colunas específicas da tabela telco_churn
:
Tenure
: "O número de meses em que o cliente está com o serviço."Churn
: "Se o cliente parou de usar o serviço. TRUE indica que o cliente não usa mais o serviço, e FALSE indica que o cliente está ativo."
Gerar insights para uma tabela do BigQuery
Para gerar insights de uma tabela do BigQuery, acesse a entrada da tabela no BigQuery usando o BigQuery Studio.
No console do Google Cloud, acesse o BigQuery Studio.
No painel Explorer, selecione a tabela para gerar insights.
Clique na guia Insights. Se a guia estiver vazia, isso significa que os insights da tabela ainda não foram gerados.
Para acionar o pipeline de insights, clique em Gerar insights.
Leva alguns minutos para que os insights sejam preenchidos.
Se os resultados da criação de perfil de dados publicados para a tabela estiverem disponíveis, eles serão usados para gerar insights. Caso contrário, os insights são gerados com base nos nomes e descrições das colunas.
Na guia Insights, confira as perguntas em linguagem natural geradas.
Para conferir a consulta SQL que responde a uma pergunta, clique nela.
Para abrir uma consulta no BigQuery, clique em Copiar para consulta.
Para fazer perguntas adicionais, siga estas etapas:
Clique em Fazer uma pergunta complementar. A consulta é aberta em uma nova tela de dados.
Clique em Executar e em Consultar estes resultados.
Para fazer uma pergunta complementar, insira um comando no campo de comando de linguagem natural ou edite o SQL no editor de consultas.
Para gerar um novo conjunto de consultas, clique em Gerar insights e acione o pipeline novamente.
Depois de gerar insights para uma tabela, qualquer pessoa com a permissão dataplex.datascans.getData
e acesso à tabela poderá visualizar esses insights.
Gerar insights para uma tabela externa do BigQuery
Os insights de dados do BigQuery oferecem suporte à geração de insights para tabelas externas do BigQuery com dados no Cloud Storage.
Você e a conta de serviço do Dataplex para o projeto atual precisam ter o papel de Leitor de objetos do Storage (roles/storage.objectViewer
) no bucket do Cloud Storage que contém os dados. Para mais informações, consulte Adicionar um principal a uma política no
nível do bucket.
Para gerar insights de uma tabela externa do BigQuery, siga as instruções descritas na seção Gerar insights de uma tabela do BigQuery deste documento.
Gerar insights para uma tabela do BigLake
Para gerar insights para uma tabela do BigLake, siga estas etapas:
Ative a API BigQuery Connection no projeto.
Criar uma conexão do BigQuery. Para mais informações, consulte Gerenciar conexões.
Conceda o papel do IAM de Leitor de objetos do Storage (
roles/storage.objectViewer
) à conta de serviço correspondente à conexão do BigQuery que você criou.Você pode recuperar o ID da conta de serviço nos detalhes da conexão.
Para gerar insights, siga as instruções descritas na seção Gerar insights para uma tabela do BigQuery deste documento.
Preços
Para saber mais sobre os preços desse recurso, consulte Visão geral dos preços do Gemini no BigQuery.
Cotas e limites
Para informações sobre cotas e limites desse recurso, consulte Cotas do Gemini no BigQuery.
Limitações
- Os insights de dados estão disponíveis para visualizações e tabelas do BigQuery, do BigLake e externas.
- Para clientes que têm várias nuvens, os dados de outras nuvens não estão disponíveis.
- Os insights de dados não são compatíveis com os tipos de coluna
Geo
ouJSON
. - A execução de insights não garante a apresentação de consultas todas as vezes. Para aumentar a probabilidade de gerar consultas mais engajadoras, reinicie o pipeline de insights.
- Para tabelas com controle de acesso (ACLs) no nível da coluna e permissões de usuário restritas, será possível gerar insights se você tiver acesso de leitura a todas as colunas da tabela. Para executar as consultas geradas, você precisa ter permissões suficientes.
A seguir
- Saiba mais sobre a criação de perfil de dados do Dataplex.
- Saiba como escrever consultas com a assistência do Gemini no BigQuery.