Conector do BigQuery

Você pode usar um conector do BigQuery para ativar o acesso programático de leitura/gravação ao BigQuery. Essa é a forma ideal para processar dados armazenados no BigQuery. O acesso à linha de comando não é exposto. O conector do BigQuery é uma biblioteca que permite que aplicativos Spark e Hadoop processem dados do BigQuery e gravem dados no BigQuery usando a terminologia nativa.

Considerações de preço

Ao usar o conector, as cobranças incluem taxas de uso do BigQuery. As seguintes cobranças específicas do serviço também podem ser aplicadas:

  • Cloud Storage: o conector faz o download de dados em um bucket do Cloud Storage antes ou durante a execução do job. Depois que o job for concluído, os dados serão excluídos do Cloud Storage. Esse armazenamento é cobrado de acordo com os preços do Cloud Storage. Para evitar cobranças em excesso, verifique sua conta do Cloud Storage e remova arquivos temporários desnecessários.
  • API BigQuery Storage: para melhorar o desempenho, o conector lê dados usando a API BigQuery Storage. Você é cobrado por esse uso de acordo com os preços da API BigQuery Storage.

Conectores disponíveis

Os seguintes conectores do BigQuery estão disponíveis para uso no ecossistema Hadoop:

  1. O conector do Spark para BigQuery adiciona uma fonte de dados do Spark, que permite que o DataFrames interaja diretamente com as tabelas do BigQuery usando as operações read e write do Spark.
  2. O conector do BigQuery para o Hive adiciona um gerenciador de armazenamento, que permite ao Apache Hive interagir diretamente com as tabelas do BigQuery usando a sintaxe do HiveQL.
  3. O Conector do BigQuery para Hadoop permite que mapeadores e redutores do Hadoop interajam com tabelas do BigQuery usando versões abstratas das classes InputFormat e OutputFormat.

Como usar os conectores

Para começar a usar o conector do BigQuery, consulte os seguintes exemplos:

A seguir