Visão geral das transferências do Cloud Storage

Com o serviço de transferência de dados do BigQuery para o Cloud Storage, você programa carregamentos de dados recorrentes do Cloud Storage para o BigQuery. O caminho do Cloud Storage e a tabela de destino podem ser parametrizados, o que permite carregar dados dos intervalos do Cloud Storage organizados por data.

Formatos de arquivo compatíveis

Atualmente, o serviço de transferência de dados do BigQuery aceita o carregamento de dados em um dos seguintes formatos:

  • valores separados por vírgula (CSV)
  • JSON (delimitado por nova linha)
  • Avro
  • Parquet
  • ORC

URI do Cloud Storage

Para carregar dados de uma fonte do Cloud Storage, você precisa fornecer o URI dele.

O URI do Cloud Storage contém o nome do intervalo e o objeto (nome do arquivo). Por exemplo, se o nome do intervalo do Cloud Storage for mybucket e o nome do arquivo de dados for myfile.csv, o URI do intervalo será gs://mybucket/myfile.csv. Caso os dados estejam separados em diversos arquivos, será possível usar um caractere curinga no URI. Para mais informações, consulte URIs de solicitação do Cloud Storage.

O BigQuery não é compatível com URIs de origem que incluam várias barras consecutivas após a barra dupla inicial. Os nomes de objeto do Cloud Storage podem conter vários caracteres consecutivos de barra ("/"). No entanto, o BigQuery os converte em uma única barra. Por exemplo, o URI de origem a seguir, ainda que válido no Cloud Storage, não funciona no BigQuery: gs://[BUCKET]/my//object//name.

Para recuperar o URI do Cloud Storage:

  1. Abra o Console do Cloud Storage.

    Console do Cloud Storage

  2. Procure a localização do objeto (arquivo) que contém os dados de origem.

  3. Na parte superior do Console do Cloud Storage, anote o caminho para o objeto. Para compor o URI, substitua gs://[BUCKET]/[FILE] pelo caminho apropriado, por exemplo, gs://mybucket/myfile.json. [BUCKET] é o nome do intervalo do Cloud Storage, e [FILE] é o nome do objeto (arquivo) que contém os dados.

Compatibilidade com caracteres curinga para URIs do Cloud Storage

Se os dados do Cloud Storage estiverem separados em vários arquivos que compartilham um nome de base comum, é possível usar um caractere curinga no URI ao carregar os dados.

Para adicionar um caractere curinga ao URI do Cloud Storage, adicione um asterisco (*) ao nome-base. Por exemplo, se você tiver dois arquivos chamados fed-sample000001.csv e fed-sample000002.csv, o URI do intervalo será gs://mybucket/fed-sample*. Esse URI curinga pode então ser usado na UI da Web ou CLI.

Você só pode usar um caractere curinga para objetos (nomes de arquivos) no intervalo. O caractere curinga pode ser exibido dentro ou no final do nome do objeto. Não é possível incluir um caractere curinga ao nome do intervalo.

Considerações sobre local

Ao escolher um local para os dados, pense nas seguintes opções:
  • Colocar seu conjunto de dados do BigQuery e sua fonte de dados externa.
    • Quando você consulta dados em uma fonte de dados externa, como o Cloud Storage, os dados que está consultando precisam estar no mesmo local que o conjunto de dados do BigQuery. Por exemplo, se o conjunto de dados do BigQuery estiver no local multirregional da UE, o intervalo do Cloud Storage que contém os dados que você está consultando precisará estar em um intervalo multirregional na UE. Se o conjunto de dados estiver no local multirregional dos EUA, o intervalo do Cloud Storage precisará estar em um intervalo multirregional nos EUA.
    • Se o seu conjunto de dados estiver em um local regional, o intervalo do Cloud Storage que contém os dados que você está consultando precisará estar em um intervalo regional no mesmo local. Por exemplo, se o conjunto de dados estiver na região de Tóquio, o intervalo do Cloud Storage precisará ser um intervalo regional em Tóquio.
    • Se o conjunto de dados externo estiver no Cloud Bigtable, seu conjunto de dados precisará estar nos EUA ou no local multirregional da UE. Seus dados do Cloud Bigtable precisam estar em um dos locais compatíveis com o Cloud Bigtable.
    • As considerações de localização não se aplicam às fontes de dados externas do Google Drive.
  • Colocar os intervalos do Cloud Storage para carregamento de dados.
    • Se o conjunto de dados do BigQuery estiver em um local multirregional, o intervalo do Cloud Storage que contém os dados que você está carregando precisará estar em um intervalo regional ou multirregional no mesmo local. Por exemplo, se o conjunto de dados do BigQuery estiver na UE, o intervalo do Cloud Storage precisará estar em um intervalo regional ou multirregional na UE.
    • Se o conjunto de dados estiver em um local regional, seu intervalo do Cloud Storage precisará ser um intervalo regional no mesmo local. Por exemplo, se o conjunto de dados estiver na região de Tóquio, seu intervalo do Cloud Storage precisará ser um intervalo regional em Tóquio.
    • Exceção: se o seu conjunto de dados estiver no local multirregional dos EUA, será possível carregar dados de um intervalo do Cloud Storage em qualquer local regional ou multirregional.
  • Colocar os intervalos do Cloud Storage para exportação de dados.
    • Ao exportar dados, o intervalo regional ou multirregional do Cloud Storage precisa estar no mesmo local que o conjunto de dados do BigQuery. Por exemplo, se o conjunto de dados do BigQuery estiver no local multirregional da UE, o intervalo do Cloud Storage que contém os dados que você está exportando precisará estar em um local regional ou multirregional na UE.
    • Se o conjunto de dados estiver em um local regional, seu intervalo do Cloud Storage precisará ser um intervalo regional no mesmo local. Por exemplo, se o conjunto de dados estiver na região de Tóquio, seu intervalo do Cloud Storage precisará ser um intervalo regional em Tóquio.
    • Exceção: se o seu conjunto de dados estiver no local multirregional dos EUA, será possível exportar dados para um intervalo do Cloud Storage em qualquer local regional ou multirregional.
  • Desenvolver um plano de gerenciamento de dados.
    • Se você escolher um recurso de armazenamento regional, como um conjunto de dados do BigQuery ou um intervalo do Cloud Storage, será necessário desenvolver um plano para gerenciar geograficamente seus dados.
Para saber mais informações sobre locais do Cloud Storage, consulte Locais de intervalos na documentação do Cloud Storage.

Como mover dados do BigQuery entre locais

Não é possível alterar o local de um conjunto de dados depois que ele foi criado. Além disso, não é possível mover um conjunto de dados de um local para outro. Se precisar mover um conjunto de dados de um local para outro, siga este processo:

  1. Exporte os dados de suas tabelas do BigQuery para um intervalo regional ou multirregional do Cloud Storage no mesmo local que seu conjunto de dados. Por exemplo, se o conjunto de dados estiver no local multirregional da UE, exporte os dados para um intervalo regional ou multirregional na UE.

    Não há cobranças pela exportação de dados do BigQuery, mas são cobradas taxas pelo armazenamento dos dados exportados no Cloud Storage. As exportações do BigQuery estão sujeitas aos limites de jobs de exportação.

  2. Copie ou mova os dados do seu intervalo do Cloud Storage para um intervalo regional ou multirregional no novo local. Por exemplo, se estiver movendo os dados do local multirregional dos EUA para o local regional de Tóquio, será necessário transferi-los para um intervalo regional em Tóquio. Para mais informações sobre como transferir objetos do Cloud Storage, consulte Como renomear, copiar e mover objetos na documentação do Cloud Storage.

    Observe que a transferência de dados entre regiões gera cobranças de saída de rede no Cloud Storage.

  3. Depois de transferir os dados para um intervalo do Cloud Storage no novo local, crie um novo conjunto de dados do BigQuery (no novo local). Em seguida, carregue seus dados do intervalo do Cloud Storage no BigQuery.

    Você não será cobrado pelo carregamento dos dados no BigQuery, mas haverá cobranças pelo armazenamento dos dados no Cloud Storage até que os dados ou o intervalo sejam excluídos. Também haverá cobrança pelo armazenamento de dados no BigQuery depois que eles forem carregados. O carregamento de dados no BigQuery está sujeito às limitações de jobs de carregamento:

Para mais informações sobre como usar o Cloud Storage para armazenar e mover grandes conjuntos de dados, consulte Como usar o Cloud Storage com Big Data.

Cotas e limites

O serviço de transferência de dados do BigQuery usa jobs de carregamento para carregar dados do Cloud Storage no BigQuery. Todas as cotas e limites do BigQuery em jobs de carregamento se aplicam aos jobs de carregamento recorrentes do Cloud Storage.

A seguir

Esta página foi útil? Conte sua opinião sobre:

Enviar comentários sobre…

Precisa de ajuda? Acesse nossa página de suporte.