Esta página foi traduzida pela API Cloud Translation.

Introdução ao carregamento de dados

Neste documento, explicamos como carregar dados no BigQuery. As duas abordagens comuns de integração de dados são extrair, carregar e transformar (ELT) ou extrair, transformar e carregar (ETL).

Para ter uma visão geral das abordagens ELT e ETL, consulte Introdução ao carregamento, transformação e exportação de dados.

Métodos de carregamento ou acesso a dados externos

Na página do BigQuery, na caixa de diálogo Adicionar dados, você pode conferir todos os métodos disponíveis para carregar dados no BigQuery ou acessar dados do BigQuery. Escolha uma das opções a seguir com base no seu caso de uso e nas fontes de dados:

Método de carregamento	Descrição
Carregamento em lote	Esse método é adequado para carregar em lote grandes volumes de dados de várias fontes. Para carregamento em lote ou incremental de dados do Cloud Storage e outras fontes de dados com suporte, recomendamos o uso do serviço de transferência de dados do BigQuery. Com o serviço de transferência de dados do BigQuery, é possível programar jobs de carregamento para automatizar pipelines de carregamento de dados no BigQuery. É possível programar transferências de dados únicas ou em lote em intervalos regulares (por exemplo, diários ou mensais). Para garantir que seus dados do BigQuery estejam sempre atualizados, monitore e registre suas transferências. Para conferir uma lista de fontes de dados compatíveis com o serviço de transferência de dados do BigQuery, consulte Fontes de dados compatíveis.
Carga de streaming	Esse método permite carregar dados quase em tempo real de sistemas de mensagens. Para fazer streaming de dados no BigQuery, use uma assinatura do BigQuery no Pub/Sub. O Pub/Sub pode processar um alto volume de cargas de dados no BigQuery. Ele oferece suporte ao streaming de dados em tempo real, carregando dados à medida que são gerados. Para mais informações, consulte Assinaturas do BigQuery.
Captura de dados alterados (CDC)	Esse método permite replicar dados de bancos de dados no BigQuery quase em tempo real. O Datastream pode transmitir dados de bancos de dados para dados do BigQuery com replicação quase em tempo real. O Datastream aproveita os recursos de CDC para rastrear e replicar mudanças no nível da linha das suas fontes de dados. Para conferir uma lista de fontes de dados compatíveis com o Datastream, consulte Fontes.
Federação com fontes de dados externas	Esse método permite o acesso a dados externos sem carregá-los no BigQuery. O BigQuery oferece suporte ao acesso a algumas fontes de dados externas pelo Cloud Storage e consultas federadas. A vantagem desse método é que você não precisa carregar os dados antes de transformá-los para uso posterior. É possível realizar a transformação executando instruções `SELECT` nos dados externos.

Você também pode usar os seguintes métodos programáticos para carregar os dados:

Método de carregamento Descrição

Carregamento em lote É possível carregar dados do Cloud Storage ou de um arquivo local criando um job de carregamento.

Se os dados de origem mudarem com pouca frequência ou se você não precisar de resultados atualizados continuamente, os jobs de carregamento podem ser uma maneira menos cara e que consome menos recursos de carregar seus dados no BigQuery.

Os dados carregados podem estar nos formatos Avro, CSV, JSON, ORC ou Parquet. Para criar o job de carregamento, também é possível usar a instrução SQL LOAD DATA.

Sistemas de código aberto conhecidos, como o Spark e vários parceiros de ETL, também oferecem suporte ao carregamento em lote de dados no BigQuery.

Carga de streaming Se você precisar oferecer suporte a fontes de dados de streaming personalizadas ou pré-processar dados antes de fazer streaming com um grande volume de transferência para o BigQuery, use o Dataflow.

Para mais informações sobre como carregar do Dataflow para o BigQuery, consulte Gravar do Dataflow para o BigQuery.

Também é possível usar diretamente a API BigQuery Storage Write.

Método de carregamento	Descrição
Carregamento em lote	É possível carregar dados do Cloud Storage ou de um arquivo local criando um job de carregamento. Se os dados de origem mudarem com pouca frequência ou se você não precisar de resultados atualizados continuamente, os jobs de carregamento podem ser uma maneira menos cara e que consome menos recursos de carregar seus dados no BigQuery. Os dados carregados podem estar nos formatos Avro, CSV, JSON, ORC ou Parquet. Para criar o job de carregamento, também é possível usar a instrução SQL `LOAD DATA`. Sistemas de código aberto conhecidos, como o Spark e vários parceiros de ETL, também oferecem suporte ao carregamento em lote de dados no BigQuery.
Carga de streaming	Se você precisar oferecer suporte a fontes de dados de streaming personalizadas ou pré-processar dados antes de fazer streaming com um grande volume de transferência para o BigQuery, use o Dataflow. Para mais informações sobre como carregar do Dataflow para o BigQuery, consulte Gravar do Dataflow para o BigQuery. Também é possível usar diretamente a API BigQuery Storage Write.

O Cloud Data Fusion pode ajudar a facilitar seu processo de ETL. O BigQuery também funciona com parceiros terceirizados que transformam e carregam dados no BigQuery.

O BigQuery permite criar conexões externas para consultar dados armazenados fora do BigQuery em serviços de Google Cloud como o Cloud Storage ou o Spanner ou em fontes de terceiros, como o Amazon Web Services (AWS) ou o Microsoft Azure. Essas conexões externas usam a API BigQuery Connection. Para mais informações, consulte Introdução às conexões.

Outras maneiras de adquirir dados

É possível executar consultas em dados sem carregá-los no BigQuery. As seções a seguir descrevem algumas alternativas.

A lista a seguir descreve algumas alternativas:

Executar consultas em dados públicos

Conjuntos de dados públicos são conjuntos de dados armazenados no BigQuery e compartilhados publicamente. Para mais informações, veja Conjuntos de dados públicos do BigQuery.

Executar consultas em dados compartilhados

Para executar consultas em um conjunto de dados do BigQuery que alguém compartilhou com você, consulte Introdução ao compartilhamento do BigQuery (antigo Analytics Hub). O compartilhamento é uma plataforma de troca de dados que permite o compartilhamento de dados.

Executar consultas com dados de registro

É possível executar consultas em registros sem criar jobs de carga adicionais:

O Cloud Logging permite encaminhar registros para um destino do BigQuery.
A Análise de registros permite executar consultas que analisam seus dados de registro.

A seguir

Saiba como preparar dados com o Gemini no BigQuery.
Saiba mais sobre a transformação de dados com o Dataform.
Saiba mais sobre como monitorar jobs de carga no Explorer de jobs administrativos e nas métricas do BigQuery.