Introdução ao carregamento de dados
Neste documento, explicamos como carregar dados no BigQuery. As duas abordagens comuns de integração de dados são extrair, carregar e transformar (ELT) ou extrair, transformar e carregar (ETL).
Para ter uma visão geral das abordagens ELT e ETL, consulte Introdução ao carregamento, transformação e exportação de dados.
Métodos de carregamento ou acesso a dados externos
Use os métodos a seguir para carregar dados no BigQuery ou acessar dados dele. Escolha uma das seguintes opções com base no seu caso de uso e nas fontes de dados:
Método de carregamento | Descrição |
---|---|
Carregamento em lote | Esse método é adequado para carregar em lote grandes volumes de dados de várias fontes. Para carregamento em lote ou incremental de dados do Cloud Storage e outras fontes de dados com suporte, recomendamos o uso do serviço de transferência de dados do BigQuery. Com o serviço de transferência de dados do BigQuery, é possível programar jobs de carregamento para automatizar os fluxos de trabalho de carregamento de dados no BigQuery. É possível programar transferências de dados únicas ou em lote em intervalos regulares (por exemplo, diários ou mensais). Para garantir que seus dados do BigQuery estejam sempre atualizados, monitore e registre suas transferências. Para conferir uma lista de fontes de dados compatíveis com o serviço de transferência de dados do BigQuery, consulte Fontes de dados compatíveis. |
Carga de streaming | Esse método permite carregar dados quase em tempo real de sistemas de
mensagens. Para fazer streaming de dados no BigQuery, use uma assinatura do BigQuery no Pub/Sub. O Pub/Sub pode processar um alto volume de cargas de dados no BigQuery. Ele oferece suporte ao streaming de dados em tempo real, carregando dados à medida que são gerados. Para mais informações, consulte Assinaturas do BigQuery. |
Captura de dados alterados (CDC) | Esse método permite replicar dados de bancos de dados para o BigQuery quase em tempo real. O Datastream pode transmitir dados de bancos de dados para dados do BigQuery com replicação quase em tempo real. O Datastream aproveita os recursos de CDC para acompanhar e replicar mudanças no nível da linha das suas fontes de dados. Para conferir uma lista de fontes de dados compatíveis com o Datastream, consulte Fontes. |
Federação com fontes de dados externas | Esse método permite o acesso a dados externos sem carregá-los
no BigQuery. O BigQuery oferece suporte ao acesso a algumas fontes de dados externas pelo Cloud Storage e consultas federadas. A vantagem desse método é que você não precisa carregar os dados antes de transformá-los para uso posterior. É possível realizar a transformação executando instruções SELECT nos dados externos. |
Também é possível usar os seguintes métodos programáticos para carregar os dados:
Método de carregamento | Descrição |
---|---|
Carregamento em lote | É possível carregar dados do Cloud Storage ou de um arquivo local criando um job de carregamento. Se os dados de origem mudarem com pouca frequência ou se você não precisar de resultados atualizados continuamente, os jobs de carregamento podem ser uma maneira menos cara e que consome menos recursos de carregar seus dados no BigQuery. Os dados carregados podem estar nos formatos Avro, CSV, JSON, ORC ou Parquet. Para criar o job de carregamento, também é possível usar a instrução SQL LOAD DATA .Sistemas de código aberto conhecidos, como o Spark e vários parceiros de ETL, também oferecem suporte ao carregamento em lote de dados no BigQuery. |
Carga de streaming | Se você precisar oferecer suporte a fontes de dados de streaming personalizadas ou pré-processar dados antes de fazer streaming com um grande volume de transferência para o BigQuery, use o Dataflow ou o BigQuery Engine para Apache Flink. Para mais informações sobre como carregar do Dataflow para o BigQuery, consulte Gravar do Dataflow para o BigQuery. Também é possível usar diretamente a API BigQuery Storage Write. |
O Cloud Data Fusion pode ajudar a facilitar seu processo de ETL. O BigQuery também funciona com parceiros terceirizados que transformam e carregam dados no BigQuery.
Outras maneiras de adquirir dados
É possível executar consultas em dados sem carregá-los no BigQuery. As seções a seguir descrevem algumas alternativas.
A lista a seguir descreve algumas alternativas:
Executar consultas em dados públicos
Conjuntos de dados públicos são conjuntos de dados armazenados no BigQuery e compartilhados publicamente. Para mais informações, veja Conjuntos de dados públicos do BigQuery.
Executar consultas em dados compartilhados
Para executar consultas em um conjunto de dados do BigQuery que alguém compartilhou com você, consulte Introdução ao Analytics Hub. O Analytics Hub é uma plataforma de troca de dados que permite o compartilhamento de dados.
Executar consultas com dados de registro
É possível executar consultas em registros sem criar jobs de carga adicionais:
O Cloud Logging permite encaminhar registros para um destino do BigQuery.
A Análise de registros permite executar consultas que analisam seus dados de registro.
A seguir
- Saiba como preparar dados com o Gemini no BigQuery.
- Saiba mais sobre a transformação de dados com o Dataform.
- Saiba mais sobre como monitorar jobs de carga no Explorador de jobs administrativos e nas métricas do BigQuery.