Visão geral das transferências do Cloud Storage

Com o serviço de transferência de dados do BigQuery para Cloud Storage, é possível programar carregamentos de dados recorrentes do Cloud Storage no BigQuery. O caminho do Cloud Storage e a tabela de destino podem ser parametrizados. Assim, você carrega dados dos buckets do Cloud Storage organizados por data.

Formatos de arquivo compatíveis

Atualmente, o serviço de transferência de dados do BigQuery aceita o carregamento de dados do Cloud Storage em um dos formatos a seguir:

  • Valores separados por vírgula (CSV, na sigla em inglês)
  • JSON (delimitado por nova linha)
  • Avro
  • Parquet
  • ORC

Tipos de compactação aceitos

O serviço de transferência de dados do BigQuery para Cloud Storage é compatível com o carregamento de dados compactados. Os tipos de compactação aceitos por esse serviço são os mesmos compatíveis com os jobs de carregamento do BigQuery. Para mais informações, consulte Como carregar dados compactados e descompactados.

URI do Cloud Storage

Para carregar dados de uma fonte do Cloud Storage, é preciso fornecer o URI dele.

O URI do Cloud Storage contém o nome do intervalo e o objeto (nome do arquivo). Por exemplo, se o intervalo do Cloud Storage se chamar mybucket e o arquivo de dados for denominado myfile.csv, o URI do intervalo será gs://mybucket/myfile.csv. Caso os dados estejam separados em vários arquivos, use um caractere curinga no URI. Para mais informações, consulte URIs de solicitação do Cloud Storage.

O serviço de transferência de dados do BigQuery não é compatível com URIs de origem que incluam várias barras consecutivas após a barra dupla inicial. Os nomes de objeto do Cloud Storage podem conter vários caracteres de barra ("/") consecutivos. No entanto, o serviço os converte em uma única barra. Por exemplo, ainda que válido no Cloud Storage, o URI de origem a seguir não funciona no serviço de transferência de dados do BigQuery: gs://bucket/my//object//name.

Para recuperar o URI do Cloud Storage:

  1. Abra o Console do Cloud Storage.

    Console do Cloud Storage

  2. Procure a localização do objeto (arquivo) que contém os dados de origem.

  3. Na parte superior do Console do Cloud Storage, anote o caminho para o objeto. Para escrever o URI, substitua gs://bucket/file pelo caminho apropriado, como por exemplo, gs://mybucket/myfile.json. bucket é o nome do bucket do Cloud Storage, e file é o nome do objeto (arquivo) que contém os dados.

Compatibilidade com caracteres curinga em URIs do Cloud Storage

Quando os dados do Cloud Storage são separados em vários arquivos que têm o mesmo nome base, é possível usar um caractere curinga no URI ao carregar os dados.

Para adicionar um caractere curinga ao URI do Cloud Storage, inclua um asterisco (*) no nome base. Por exemplo, se você tiver dois arquivos chamados fed-sample000001.csv e fed-sample000002.csv, o URI do intervalo será gs://mybucket/fed-sample*. Esse URI de caractere curinga pode ser usado no Console do Cloud ou na ferramenta de linha de comando gcloud.

É possível usar vários caracteres curinga nos objetos (nomes de arquivos) dentro de buckets. Esses caracteres aparecem em qualquer lugar no nome do objeto.

Os caracteres curinga não expandem um diretório em gs://bucket/. Por exemplo, gs://bucket/dir/* encontra arquivos no diretório dir, mas não no subdiretório gs://bucket/dir/subdir/.

Também não há correspondência em prefixos sem caracteres curinga. Por exemplo, gs://bucket/dir não corresponde em gs://bucket/dir/file.csv ou gs://bucket/file.csv

No entanto, é possível usar vários caracteres curinga em nomes de arquivo dentro de buckets. Por exemplo, gs://bucket/dir/*/*.csv corresponde a gs://bucket/dir/subdir/file.csv.

Para exemplos de suporte a caracteres curinga em combinação com nomes de tabelas parametrizados, consulte Como usar parâmetros de ambiente de execução em transferências.

Questões sobre o local

O bucket do Cloud Storage precisa estar em uma região ou multirregião compatível com a região ou multirregião do conjunto de dados de destino no BigQuery.

Defina os buckets do Cloud Storage que receberão os dados exportados.
  • Se o conjunto de dados do BigQuery estiver em um local multirregional, o bucket do Cloud Storage que contém os dados transferidos deverá estar em um bucket regional ou multirregional no mesmo local. Por exemplo, se o conjunto de dados do BigQuery estiver na UE, o intervalo do Cloud Storage precisará estar em um intervalo regional ou multirregional na UE.
  • Se o conjunto de dados estiver em um local regional, seu bucket do Cloud Storage precisará ser um bucket regional no mesmo local. Por exemplo, se o conjunto de dados estiver na região de Tóquio, seu intervalo do Cloud Storage precisará ser um intervalo regional em Tóquio.
  • Exceção: se seu conjunto de dados estiver no local multirregional dos EUA, você poderá transferir os dados de um bucket do Cloud Storage em qualquer local regional ou multirregional.

Para informações detalhadas sobre transferências e regiões, consulte Locais e transferências de conjuntos de dados.

Para mais informações sobre locais do Cloud Storage, consulte Locais de intervalos na respectiva documentação.

Preço

Cotas e limites

O serviço de transferência de dados do BigQuery usa jobs para carregar dados do Cloud Storage no BigQuery.

Todas as Cotas e limites do BigQuery em jobs de carregamento são aplicadas aos jobs de carregamento recorrentes do Cloud Storage.

A seguir