Visão geral das análises do BigQuery

Neste documento, você encontra uma visão geral de como as consultas são processadas no BigQuery e alguns dos recursos úteis para análise de dados.

Introdução

O BigQuery é um mecanismo analítico e data warehouse em nuvem totalmente gerenciado e altamente escalonável. Ele é otimizado para executar consultas analíticas em grandes conjuntos de dados. Ele pode executar consultas em terabytes de dados em segundos e petabytes em minutos. Esse desempenho permite analisar grandes conjuntos de dados de maneira eficiente e gerar insights quase em tempo real. Entender como o BigQuery processa as consultas e os recursos de análise que ele oferece ajuda a maximizar a capacidade de análise.

Tipos de análise

Veja a seguir os recursos de análise disponíveis no BigQuery:

  • Análise ad-hoc: o BigQuery suporta análise ad-hoc usando o SQL padrão, o dialeto SQL do BigQuery. As consultas podem ser executadas no Console do Google Cloud ou por ferramentas de terceiros integradas ao BigQuery.

  • Análise geoespacial: com a análise geoespacial, você analisa e visualiza dados geoespaciais no BigQuery usando tipos de dados geográficos e funções geográficas do SQL padrão. Para informações sobre essas funções e de dados, consulte Introdução à análise geoespacial.

  • Machine learning: com o BigQuery ML, é possível criar e executar modelos de machine learning no BigQuery usando consultas SQL padrão

  • Business intelligence: o BigQuery BI Engine é um serviço rápido de análise na memória. O BI Engine permite criar relatórios e painéis interativos e ricos sem comprometer o desempenho, a escala, a segurança ou a atualização dos dados.

Consultas

A unidade de análise principal do BigQuery é a consulta SQL. O BigQuery tem dois dialetos SQL chamados SQL padrão e SQL legado. O SQL padrão, que é o dialeto mais usado, suporta SQL:2011 e inclui extensões que fornecem suporte para análise geoespacial ou machine learning. O BigQuery também suporta a consulta de dados armazenados em várias fontes.

Fonte de dados

O BigQuery suporta a consulta dos seguintes tipos de fontes de dados:

  • Dados nativos: os dados armazenados no BigQuery. É possível carregar dados no BigQuery ou gerar dados usando instruções da linguagem de manipulação de dados ou gravando resultados de consulta em uma tabela.
  • Dados externos: dados armazenados em outros serviços de armazenamento do Google Cloud, como o Cloud Storage, ou em outros serviços de banco de dados do Google Cloud, como o Spanner ou o Cloud SQL. Para mais informações sobre como configurar conexões com fontes externas, consulte Introdução às fontes de dados externas.
  • Dados de várias nuvens: dados armazenados em vários serviços de nuvem, como AWS ou Azure. Para informações sobre como configurar conexões ao armazenamento da AWS e do Azure, consulte os Guias de instruções na documentação do BigQuery Omni.
  • Conjunto de dados público: se você não tiver seus próprios dados, é possível analisar qualquer um dos conjuntos de dados disponíveis na loja de conjuntos de dados públicos.

Tipos de consultas

Depois de carregar dados no BigQuery, você pode consultar os dados nas tabelas. O BigQuery aceita dois tipos de consultas:

Por padrão, o BigQuery executa consultas interativas, o que significa que elas são executadas assim que possível.

O BigQuery também oferece consultas em lote. O BigQuery coloca em fila cada consulta em lote em seu nome e inicia a consulta assim que os recursos inativos tornam-se disponíveis, normalmente em alguns minutos.

Execute consultas interativas e em lote usando:

Jobs de consulta

Jobs são ações executadas pelo BigQuery em seu nome para carregar, exportar, consultar ou copiar dados.

Quando você usa o Console do Cloud ou a ferramenta de linha de comando bq para carregar, exportar, consultar ou copiar dados, um recurso de job é criado, programado e executado automaticamente. Também é possível criar de maneira programática um job de carregamento, exportação, consulta ou cópia. Quando você faz isso, o job é programado e executado pelo BigQuery.

Como os jobs podem levar um longo tempo para serem concluídos, eles são executados de maneira assíncrona e podem ser pesquisados por status. As ações mais curtas, como listar recursos ou receber metadados, não são gerenciadas por um recurso de job.

Como salvar e compartilhar consultas

O BigQuery permite salvar e compartilhar consultas com outras pessoas.

Uma consulta salva pode ser privada (visível apenas para você), compartilhada para envolvidos no projeto (visível para os principais do projeto) ou pública (qualquer pessoa consegue vê-la). Para mais informações, veja como salvar e compartilhar consultas.

Processamento de consultas

No BigQuery, a computação é separada do armazenamento, que são projetados para trabalhar em conjunto para organizar os dados e fazer consultas eficientes em grandes conjuntos de dados.

Quando você executa uma consulta, o BigQuery gera uma árvore de execução que divide a consulta em estágios. Os estágios contêm etapas que podem ser executadas em paralelo. Os estágios se comunicam entre si usando um nível de embaralhamento distribuído rápido que armazena dados intermediários produzidos pelos workers de um estágio. O nível de embaralhamento usa tecnologias como uma rede de petabit e RAM sempre que possível para garantir que os dados sejam movidos rapidamente para os nós de trabalho.

Veja a seguir os principais conceitos do processamento de consultas:

  • Árvore de execução: a consulta é dividida em estágios que contêm etapas que os workers podem fazer em paralelo.
  • Camada de embaralhamento: armazena dados intermediários entre os estágios.
  • Plano de consulta: um plano de consulta é gerado quando o BigQuery tem todas as informações necessárias para executar a consulta. Esse plano de consulta é visível no console e pode ajudar na solução de problemas ou na otimização do desempenho da consulta.
  • Monitoramento e planejamento dinâmico de consultas: além dos workers que realizam o trabalho do próprio plano de consulta, outros workers monitoram e direcionam o progresso geral do trabalho em todo o sistema. As medida que a consulta avança, o BigQuery também pode ajustar o plano de consulta dinamicamente para se adaptar aos resultados dos vários estágios.

Quando uma consulta é concluída, os resultados são gravados no armazenamento permanente e retornados ao usuário. Isso permite que o BigQuery exiba os resultados armazenados em cache na próxima vez que a consulta for executada.

Otimização de consultas

Quando a consulta for concluída, veja o plano de consulta no console ou solicite detalhes de execução na visualização INFORMATION_SCHEMA ou pela API Jobs.. O plano de consulta fornece detalhes sobre os estágios da consulta, como estatísticas gerais e informações detalhadas das etapas.

Use os detalhes do plano de consulta para identificar maneiras de melhorar o desempenho dela. Por exemplo, se você vir nos detalhes de execução que um estágio específico está gravando muito mais saída do que outros, isso poderá significar que você precisa filtrar mais cedo na consulta.

Monitoramento de consultas

O monitoramento e a geração de registros são fundamentais para executar aplicativos confiáveis na nuvem. As cargas de trabalho do BigQuery não são exceção, especialmente se a carga de trabalho tiver grandes volumes ou for essencial. O BigQuery fornece várias métricas, registros e visualizações de metadados para ajudar a monitorar o uso do BigQuery.

Preços de consultas

O BigQuery oferece dois modelos de preços para análise:

Para mais informações sobre os dois modelos de preço e sobre como fazer reservas de preços fixos, consulte Introdução às reservas.

Controles de custo de consulta e cotas

O BigQuery impõe cotas de nível de projeto para a execução de consultas. Para informações sobre cotas de consultas, veja Cotas e limites.

O BigQuery fornece várias opções para controlar os custos de consulta, incluindo cotas personalizadas e alertas de cobrança. Para mais informações, consulte Como criar controles de custo personalizados.

Recursos de análise de dados

O BigQuery suporta análises descritivas e preditivas. Use o console para consultar os dados diretamente para responder a algumas perguntas estatísticas ou use ferramentas, como o Tableau ou o Looker, que se integram com o BigQuery para explorar visualmente os dados em busca de tendências, anomalias etc.

Integração com ferramentas do Google Analytics

Além de executar consultas no BigQuery, você tem uma variedade de ferramentas de análise e de Business Intelligence que se integram ao BigQuery para ajudar ainda mais na análise.

Veja a seguir algumas dessas ferramentas:

  • Google Data Studio: inicie o Google Data Studio diretamente no console do BigQuery depois de executar uma consulta. Os dados retornados da consulta estarão automaticamente acessíveis no Console do Google Data Studio, onde é possível criar visualizações e explorar. Para mais informações sobre o Google Data Studio, consulte a Visão geral do Data Studio.

  • Páginas conectadas: também é possível iniciar as páginas conectadas diretamente no console do BigQuery. As páginas conectadas executam consultas do BigQuery em seu nome mediante solicitação ou em uma programação definida. Os resultados dessas consultas são salvos na planilha para análise e compartilhamento. Para informações sobre as páginas conectadas, consulte Como usar as páginas conectadas.

  • Looker: uma plataforma corporativa de Business Intelligence, aplicativos de dados e análises incorporadas. A Plataforma Looker funciona com muitos armazenamentos de dados, incluindo o BigQuery. Para informações sobre como conectar o Looker ao BigQuery, consulte Como usar o Looker.

Integração com ferramentas de terceiros

Há também ferramentas de análise de terceiros que funcionam com o BigQuery. Por exemplo, você pode conectar o Tableau aos dados do BigQuery e usar as ferramentas de visualização dele para analisar e compartilhar a análise.

Os drivers ODBC e JDBC estão disponíveis e podem ser usados para integrar o aplicativo ao BigQuery. A intenção desses drivers é ajudar os usuários a aproveitar a eficiência do BigQuery com ferramentas e infraestrutura atuais. Para informações sobre a versão mais recente e problemas conhecidos, consulte drivers ODBC e JDBC para BigQuery.

As bibliotecas pandas, como "pandas-gbq", permitem a interação com dados do BigQuery em notebooks do Jupyter. Para informações sobre essa biblioteca e a comparação dela com o uso da biblioteca de cliente Python do BigQuery, consulte Comparação com o pandas-gbq.

Para uma lista completa de análises do BigQuery e mais parceiros em tecnologia, consulte a lista de parceiros na página do produto do BigQuery.

A seguir