Vista geral do BigQuery
O BigQuery é uma plataforma de dados totalmente gerida e preparada para IA que ajuda a gerir e analisar os seus dados com funcionalidades integradas, como aprendizagem automática, pesquisa, análise geoespacial e Business Intelligence. A arquitetura sem servidor do BigQuery permite-lhe usar linguagens como SQL e Python para responder às perguntas mais importantes da sua organização sem precisar de qualquer gestão de infraestruturas.
O BigQuery oferece uma forma uniforme de trabalhar com dados estruturados e não estruturados, e suporta formatos de tabelas abertos, como o Apache Iceberg, o Delta e o Hudi. O streaming do BigQuery suporta a ingestão contínua de dados e a análise, enquanto o motor de análise distribuída e escalável do BigQuery permite consultar terabytes em segundos e petabytes em minutos.
O BigQuery oferece capacidades de governação incorporadas que lhe permitem descobrir e organizar dados, bem como gerir metadados e a qualidade dos dados. Através de funcionalidades como a pesquisa semântica e a linhagem de dados, pode encontrar e validar dados relevantes para análise. Pode partilhar dados e recursos de IA na sua organização com as vantagens do controlo de acesso. Estas funcionalidades são baseadas no catálogo universal do Dataplex, que é uma solução de governação unificada e inteligente para dados e recursos de IA no Google Cloud.
A arquitetura do BigQuery consiste em duas partes: uma camada de armazenamento que carrega, armazena e otimiza dados, e uma camada de computação que oferece capacidades de estatísticas. Estas camadas de computação e armazenamento funcionam de forma eficiente independente umas das outras graças à rede de petabits da Google que permite a comunicação necessária entre elas.
Normalmente, as bases de dados antigas têm de partilhar recursos entre operações de leitura e escrita e operações analíticas. Isto pode resultar em conflitos de recursos e pode tornar as consultas mais lentas enquanto os dados são escritos ou lidos do armazenamento. Os conjuntos de recursos partilhados podem ficar ainda mais sobrecarregados quando são necessários recursos para tarefas de gestão de bases de dados, como atribuir ou revogar autorizações. A separação das camadas de computação e armazenamento do BigQuery permite que cada camada aloque recursos dinamicamente sem afetar o desempenho nem a disponibilidade da outra.
Este princípio de separação permite ao BigQuery inovar mais rapidamente porque as melhorias de armazenamento e computação podem ser implementadas de forma independente, sem tempo de inatividade nem impacto negativo no desempenho do sistema. Também é essencial para oferecer um armazém de dados sem servidor totalmente gerido no qual a equipa de engenharia do BigQuery trata das atualizações e da manutenção. O resultado é que não precisa de aprovisionar nem dimensionar manualmente os recursos, o que lhe permite concentrar-se na oferta de valor em vez das tarefas tradicionais de gestão de bases de dados.
As interfaces do BigQuery incluem a Google Cloud interface da consola e a ferramenta de linha de comandos do BigQuery. Os programadores e os cientistas de dados podem usar bibliotecas cliente com programação familiar, incluindo Python, Java, JavaScript e Go, bem como a API REST e a API RPC do BigQuery para transformar e gerir dados. Os controladores ODBC e JDBC permitem a interação com aplicações existentes, incluindo ferramentas e utilitários de terceiros.
Enquanto analista de dados, engenheiro de dados, administrador de armazém de dados ou cientista de dados, o BigQuery ajuda a carregar, processar e analisar dados para fundamentar decisões empresariais críticas.
Comece a usar o BigQuery
Pode começar a explorar o BigQuery em minutos. Aproveite o nível de utilização gratuito ou o sandbox sem custo financeiro do BigQuery para começar a carregar e consultar dados.
- Sandbox do BigQuery: comece a usar o sandbox do BigQuery sem riscos e sem custos.
- Google Cloud Início rápido da consola: Familiarize-se com o poder do BigQuery Studio.
- Conjuntos de dados públicos: experimente o desempenho do BigQuery explorando dados reais de grande dimensão do Public Datasets Program.
Explore o BigQuery
A infraestrutura sem servidor do BigQuery permite-lhe focar-se nos seus dados em vez da gestão de recursos. O BigQuery combina um armazém de dados baseado na nuvem e ferramentas de análise avançadas.
Armazenamento do BigQuery
O BigQuery armazena dados através de um formato de armazenamento em colunas otimizado para consultas analíticas. O BigQuery apresenta os dados em tabelas, linhas e colunas, e oferece suporte total para a semântica de transações de bases de dados (ACID). O armazenamento do BigQuery é replicado automaticamente em várias localizações para oferecer uma elevada disponibilidade.
- Saiba mais sobre os padrões comuns para organizar os recursos do BigQuery no armazém de dados e nos data marts.
- Saiba mais sobre os conjuntos de dados, o contentor de nível superior do BigQuery de tabelas e vistas.
- O Serviço de transferência de dados do BigQuery automatiza a carregamento de dados.
- Carregue dados para o BigQuery através de:
- Transmita dados com a API Storage Write.
- Carregue dados em lote a partir de ficheiros locais ou do Cloud Storage usando formatos que incluem: Avro, Parquet, ORC, CSV, JSON, Datastore, e Firestore formatos.
Para mais informações, consulte o artigo Vista geral do armazenamento do BigQuery.
Análise do BigQuery
As utilizações da análise descritiva e prescritiva incluem Business Intelligence, análise ad hoc, análise geoespacial e aprendizagem automática. Pode consultar dados armazenados no BigQuery ou executar consultas em dados onde residem através de tabelas externas ou consultas federadas, incluindo o Cloud Storage, o Bigtable, o Spanner ou o Google Sheets armazenados no Google Drive.
- Consultas SQL padrão ANSI (suporte de SQL:2011) incluindo suporte para junções, campos aninhados e repetidos, funções analíticas e de agregação, consultas com várias declarações e uma variedade de funções espaciais com estatísticas geoespaciais – Sistemas de Informação Geográfica.
- Crie vistas para partilhar a sua análise.
- Suporte de ferramentas de Business Intelligence, incluindo o Google Sheets e ferramentas de terceiros, como o Tableau e o Power BI. BI Engine com Looker Studio, Looker, Google Sheets, e ferramentas de terceiros, como o Tableau e o Power BI.
- O BigQuery ML oferece aprendizagem automática e estatísticas preditivas.
- O BigQuery Studio oferece funcionalidades como blocos de notas Python e controlo de versões para blocos de notas e consultas guardadas. Estas funcionalidades facilitam a conclusão dos seus fluxos de trabalho de análise de dados e aprendizagem automática (AA) no BigQuery.
- Consultar dados fora do BigQuery com consultas federadas e tabelas externas.
Para mais informações, consulte o artigo Vista geral da análise do BigQuery.
Administração do BigQuery
O BigQuery oferece uma gestão centralizada dos recursos de dados e computação, enquanto a gestão de identidades e acessos (IAM) ajuda a proteger esses recursos com o modelo de acesso usado em todo o Google Cloud. As Google Cloud práticas recomendadas de segurança oferecem uma abordagem sólida, mas flexível, que pode incluir segurança de perímetro ou uma abordagem de defesa em profundidade mais complexa e detalhada.
- Introdução à segurança e à administração de dados ajuda a compreender a administração de dados e os controlos de que pode precisar para proteger os recursos do BigQuery.
- As tarefas são ações que o BigQuery executa em seu nome para carregar, exportar, consultar ou copiar dados.
- As reservas permitem-lhe alternar entre preços a pedido e preços baseados na capacidade.
Para mais informações, consulte o artigo Introdução à administração do BigQuery.
Recursos do BigQuery
Explore os recursos do BigQuery:
- As notas de lançamento fornecem registos de alterações das funcionalidades, alterações e descontinuações.
- Preços para análise e armazenamento. Veja também os preços do: BigQuery ML, BI Engine e Serviço de transferência de dados.
- As localizações definem onde cria e armazena conjuntos de dados (localizações regionais e multirregionais).
- O Stack Overflow tem uma comunidade ativa de programadores e analistas que trabalham com o BigQuery.
- O apoio técnico do BigQuery oferece ajuda com o BigQuery.
- Google BigQuery: The Definitive Guide: Data Warehousing, Analytics, and Machine Learning at Scale de Valliappa Lakshmanan e Jordan Tigani, explica como o BigQuery funciona e fornece um passo a passo completo sobre como usar o serviço.
APIs, ferramentas e referências
Materiais de referência para programadores e analistas do BigQuery:
- A API BigQuery e as bibliotecas cliente apresentam vistas gerais das funcionalidades do BigQuery e da respetiva utilização.
- Sintaxe de consulta SQL para detalhes sobre a utilização do GoogleSQL.
- Os exemplos de código do BigQuery oferecem centenas de fragmentos para bibliotecas cliente em C#, Go, Java, Node.js, Python e Ruby. Em alternativa, veja o navegador de exemplo.
- A sintaxe DML, DDL> e funções definidas pelo utilizador (UDF) permite-lhe gerir e transformar os seus dados do BigQuery.
- A referência da ferramenta de linhas de comando bq
documenta a sintaxe, os comandos, as flags e os argumentos da interface da CLI
bq
. - Integração ODBC / JDBC associe o BigQuery às suas ferramentas e infraestrutura existentes.
Funcionalidades do Gemini no BigQuery
O Gemini no BigQuery faz parte da suite de produtos Gemini para Google Cloud, que oferece assistência com tecnologia de IA para ajudar a trabalhar com os seus dados.
O Gemini no BigQuery oferece assistência de IA para ajudar a fazer o seguinte:
- Explore e compreenda os seus dados com estatísticas de dados. As estatísticas de dados oferecem uma forma automatizada e intuitiva de descobrir padrões e realizar análises estatísticas através de consultas detalhadas geradas a partir dos metadados das suas tabelas. Esta funcionalidade é especialmente útil para resolver os desafios de arranque a frio da exploração de dados inicial. Para mais informações, consulte o artigo Gere estatísticas de dados no BigQuery.
- Descubra, transforme, consulte e visualize dados com a tela de dados do BigQuery. Pode usar a linguagem natural com o Gemini no BigQuery para encontrar, juntar e consultar recursos de tabelas, visualizar resultados e colaborar facilmente com outras pessoas durante todo o processo. Para mais informações, consulte o artigo Analise com a tela de dados.
- Obtenha análise de dados assistida em SQL e Python. Pode usar o Gemini no
BigQuery para gerar ou sugerir código em SQL ou Python, e para explicar
uma consulta SQL existente. Também pode usar consultas em linguagem natural para começar a análise de dados. Para
saber como gerar, concluir e resumir código, consulte a seguinte documentação:
- Assistência de código SQL
- Assistência de código Python
- Prepare os dados para análise. A preparação de dados no BigQuery oferece-lhe recomendações de transformação geradas pela IA e com reconhecimento do contexto para limpar os dados para análise. Para mais informações, consulte o artigo Prepare dados com o Gemini.
- Personalize as suas traduções de SQL com regras de tradução. (Pré-visualização) Crie regras de tradução melhoradas pelo Gemini para personalizar as suas traduções de SQL quando usar o tradutor de SQL interativo. Pode descrever as alterações ao resultado da tradução de SQL através de comandos de linguagem natural ou especificar padrões de SQL para encontrar e substituir. Para mais informações, consulte o artigo Crie uma regra de tradução.
Para saber como configurar o Gemini no BigQuery, consulte o artigo Configure o Gemini no BigQuery.
Funções e recursos do BigQuery
O BigQuery satisfaz as necessidades dos profissionais de dados nas seguintes funções e responsabilidades.
Analista de dados
Orientação de tarefas para ajudar se precisar de fazer o seguinte:
- Consultar dados do BigQuery através de consultas interativas ou em lote com a sintaxe de consulta SQL
- Fazer referência a funções, operadores e expressões condicionais de SQL para consultar dados
Use ferramentas para analisar e visualizar dados do BigQuery, incluindo: Looker, Looker Studio, e Google Sheets.
Use a análise geoespacial para analisar e visualizar dados geoespaciais com os sistemas de informações geográficas do BigQuery
Otimize o desempenho das consultas através do seguinte:
- Tabelas particionadas: reduza as tabelas grandes com base em intervalos de tempo ou de números inteiros.
- Vistas materializadas: defina vistas em cache para otimizar consultas ou fornecer resultados persistentes.
- BI Engine: serviço de análise na memória rápido do BigQuery.
Para fazer uma visita guiada às funcionalidades de estatísticas de dados do BigQuery diretamente na Google Cloud consola, clique em Fazer visita guiada.
Administrador de dados
Orientação de tarefas para ajudar se precisar de fazer o seguinte:
- Faça a gestão dos custos com reservas para equilibrar os preços a pedido e baseados na capacidade.
- Compreenda a segurança e a administração de dados para ajudar a proteger os dados por conjunto de dados, tabela, coluna, linha, ou vista
- Faça uma cópia de segurança dos dados com instantâneos de tabelas para preservar o conteúdo de uma tabela num determinado momento.
- Ver INFORMATION_SCHEMA do BigQuery para compreender os metadados de conjuntos de dados, tarefas, controlo de acesso, reservas, tabelas e muito mais.
- Use tarefas para que o BigQuery carregue, exporte, consulte ou copie dados em seu nome.
- Monitorize registos e recursos para compreender o BigQuery e as cargas de trabalho.
Para mais informações, consulte a Introdução à administração do BigQuery.
Para fazer uma visita guiada às funcionalidades de administração de dados do BigQuery diretamente na Google Cloud consola, clique em Fazer visita guiada.
Cientista de dados
Orientações de tarefas para ajudar se precisar de usar a aprendizagem automática do BigQuery ML para fazer o seguinte:
- Compreenda o percurso do utilizador completo para modelos de aprendizagem automática
- Faça a gestão do controlo de acesso para o BigQuery ML
- Crie e prepare modelos do BigQuery ML
incluindo:
- Previsão de regressão linear
- Classificações de regressão logística binária e logística multiclasse
- Agrupamento K-means para segmentação de dados
- Previsão de séries cronológicas com modelos Arima+
Programador de dados
Orientação de tarefas para ajudar se precisar de fazer o seguinte:
- Carregue dados para o BigQuery
com:
- Carregar dados em lote para os formatos Avro, Parquet, ORC, CSV, JSON, Datastore e Firestore
- Serviço de transferência de dados do BigQuery
- API BigQuery Storage Write
Use a biblioteca de exemplos de código, incluindo:
Google Cloud Navegador de exemplos (com âmbito para o BigQuery)
Tutoriais em vídeo do BigQuery
A seguinte série de tutoriais em vídeo ajuda a começar a usar o BigQuery:
Título |
Descrição |
---|---|
Como começar a usar o BigQuery (17:18) | Uma vista geral que resume o que é o BigQuery e como o usar. Os segmentos incluem: pipelines de ETL, preços e otimização, BigQuery ML e BI Engine, e terminam com uma demonstração do BigQuery na Google Cloud consola. |
O que é o BigQuery? (4:39) | Uma vista geral do BigQuery que explica como o BigQuery foi concebido para carregar e armazenar grandes quantidades de dados para ajudar os analistas e os programadores |
Usar o sandbox do BigQuery (3:05) | Como configurar um sandbox do BigQuery, que lhe permite executar consultas sem precisar de um cartão de crédito |
Fazer perguntas e executar consultas (5:11) | Como escrever e executar consultas SQL na IU do BigQuery, além de escolher um número de camisola vencedor |
Carregar dados para o BigQuery (5:31) | Como carregar e analisar dados em tempo real ou apenas uma análise de dados em lote única, além de gatos vs. cães |
Visualizar resultados da consulta (5:38) | Como a visualização de dados é útil para tornar os conjuntos de dados complexos mais fáceis de compreender e interiorizar |
Gerir o acesso com o IAM (5:23) | Como permitir que outros utilizadores consultem os seus conjuntos de dados no BigQuery com autorizações de IAM e controlo de acesso |
Guardar e partilhar consultas (6:17) | Como guardar e partilhar as suas consultas no BigQuery sem problemas |
Proteger dados confidenciais com vistas autorizadas (7:12) | Como partilhar conjuntos de dados com diferentes utilizadores através da definição de controlos de acesso personalizados |
Consultar dados externos com o BigQuery (5:49) | Como configurar uma origem de dados externa no BigQuery e consultar dados do Cloud Storage, Cloud SQL, Google Drive e muito mais |
O que são funções definidas pelo utilizador? (4:59) | Como criar funções definidas pelo utilizador (UDFs) para analisar conjuntos de dados no BigQuery |
O que se segue?
- Para uma vista geral do armazenamento do BigQuery, consulte o artigo Vista geral do armazenamento do BigQuery.
- Para uma vista geral das consultas do BigQuery, consulte o artigo Vista geral da análise do BigQuery.
- Para uma vista geral da administração do BigQuery, consulte o artigo Introdução à administração do BigQuery.
- Para uma vista geral da segurança do BigQuery, consulte o artigo Vista geral da segurança e da governação de dados.