Introdução ao carregamento de dados
Este documento explica como pode carregar dados para o BigQuery. As duas abordagens comuns à integração de dados consistem em extrair, carregar e transformar (ELT) ou extrair, transformar e carregar (ETL) dados.
Para uma vista geral das abordagens ELT e ETL, consulte o artigo Introdução ao carregamento, à transformação e à exportação de dados.
Métodos de carregamento ou acesso a dados externos
Na página do BigQuery, na caixa de diálogo Adicionar dados, pode ver todos os métodos disponíveis para carregar dados para o BigQuery ou aceder a dados do BigQuery. Escolha uma das seguintes opções com base no seu exemplo de utilização e origens de dados:
Método de carregamento | Descrição |
---|---|
Carregamento em lote | Este método é adequado para o carregamento em lote de grandes volumes de dados de uma variedade de origens. Para o carregamento em lote ou incremental de dados do Cloud Storage e de outras origens de dados suportadas, recomendamos a utilização do Serviço de transferência de dados do BigQuery. Com o Serviço de transferência de dados do BigQuery, para automatizar os pipelines de carregamento de dados para o BigQuery, pode agendar tarefas de carregamento. Pode agendar transferências de dados únicas ou em lote a intervalos regulares (por exemplo, diários ou mensais). Para garantir que os seus dados do BigQuery estão sempre atualizados, pode monitorizar e registar as suas transferências. Para ver uma lista das origens de dados suportadas pelo Serviço de transferência de dados do BigQuery, consulte o artigo Origens de dados suportadas. |
Carga de streaming | Este método permite o carregamento de dados quase em tempo real a partir de sistemas de mensagens. Para fazer stream de dados para o BigQuery, pode usar uma subscrição do BigQuery no Pub/Sub. O Pub/Sub pode processar um elevado débito de carregamentos de dados para o BigQuery. Suporta o streaming de dados em tempo real, carregando os dados à medida que são gerados. Para mais informações, consulte o artigo Subscrições do BigQuery. |
Captura de dados de alterações (CDC) | Este método permite replicar dados de bases de dados para o BigQuery praticamente em tempo real. O Datastream pode fazer stream de dados de bases de dados para dados do BigQuery com replicação praticamente em tempo real. O fluxo de dados tira partido das capacidades de CDC para monitorizar e replicar alterações ao nível das linhas das suas origens de dados. Para ver uma lista de origens de dados suportadas pelo Datastream, consulte Origens. |
Federação a origens de dados externas | Este método permite o acesso a dados externos sem os carregar
para o BigQuery. O BigQuery suporta o acesso a determinadas origens de dados externas através do Cloud Storage e de consultas federadas. A vantagem deste método é que não precisa de carregar os dados antes de os transformar para utilização subsequente. Pode fazer a transformação executando declarações SELECT nos dados externos. |
Também pode usar os seguintes métodos programáticos para carregar os dados:
Método de carregamento | Descrição |
---|---|
Carregamento em lote | Pode carregar dados do Cloud Storage ou
de um ficheiro local criando uma tarefa de carregamento. Se os dados de origem forem alterados com pouca frequência ou não precisar de resultados atualizados continuamente, as tarefas de carregamento podem ser uma forma menos dispendiosa e menos intensiva em termos de recursos de carregar os dados para o BigQuery. Os dados carregados podem estar no formato Avro, CSV, JSON, ORC ou Parquet. Para criar a tarefa de carregamento, também pode usar a declaração SQL LOAD DATA .Os sistemas populares de código aberto, como o Spark e vários parceiros de ETL, também suportam o carregamento de dados em lote para o BigQuery. |
Carga de streaming | Se tiver de suportar origens de dados de streaming personalizadas ou pré-processar dados antes de os transmitir com um débito elevado para o BigQuery, use o Dataflow. Para mais informações sobre o carregamento do Dataflow para o BigQuery, consulte o artigo Escreva do Dataflow para o BigQuery. Também pode usar diretamente a API BigQuery Storage Write. |
O Cloud Data Fusion pode ajudar a facilitar o seu processo ETL. O BigQuery também funciona com parceiros externos que transformam e carregam dados no BigQuery.
O BigQuery permite-lhe criar ligações externas para consultar dados que estão armazenados fora do BigQuery em Google Cloud serviços como o Cloud Storage ou o Spanner, ou em origens de terceiros, como os Amazon Web Services (AWS) ou o Microsoft Azure. Estas ligações externas usam a API BigQuery Connection. Para mais informações, consulte o artigo Introdução às associações.
Outras formas de adquirir dados
Pode executar consultas em dados sem os carregar para o BigQuery. As secções seguintes descrevem algumas alternativas.
A lista seguinte descreve algumas das alternativas:
Execute consultas em dados públicos
Os conjuntos de dados públicos são conjuntos de dados armazenados no BigQuery e partilhados com o público. Para mais informações, consulte os conjuntos de dados públicos do BigQuery.
Execute consultas em dados partilhados
Para executar consultas num conjunto de dados do BigQuery que alguém partilhou consigo, consulte o artigo Introdução à partilha do BigQuery (anteriormente Analytics Hub). A partilha é uma plataforma de troca de dados que permite a partilha de dados.
Execute consultas com dados de registo
Pode executar consultas em registos sem criar tarefas de carregamento adicionais:
O Cloud Logging permite-lhe encaminhar registos para um destino do BigQuery.
A Análise de registos permite-lhe executar consultas que analisam os seus dados de registo.
O que se segue?
- Saiba como preparar dados com o Gemini no BigQuery.
- Saiba como transformar dados com o Dataform.
- Saiba mais sobre a monitorização de tarefas de carregamento no explorador de tarefas administrativas e nas métricas do BigQuery.