Connecteur BigQuery

Vous pouvez utiliser un connecteur BigQuery pour activer l'accès automatisé en lecture/écriture à BigQuery. Ce procédé est idéal pour traiter les données stockées dans BigQuery. Aucun accès en ligne de commande n'est exposé. Le connecteur BigQuery est une bibliothèque qui permet aux applications Spark et Hadoop de traiter des données depuis BigQuery et de les écrire dans BigQuery à l'aide de sa terminologie native.

Remarques sur les tarifs

Lorsque vous utilisez le connecteur, le tarif comprend les frais d'utilisation de BigQuery. Les frais suivants peuvent également s'appliquer :

  • Cloud Storage : le connecteur télécharge des données dans un bucket Cloud Storage avant ou pendant l'exécution de la tâche. Une fois la tâche terminée, les données sont supprimées de Cloud Storage. Ce stockage vous est facturé conformément aux tarifs de Cloud Storage. Pour éviter des frais supplémentaires, vérifiez votre compte Cloud Storage et supprimez les fichiers temporaires inutiles.
  • API BigQuery Storage : pour améliorer les performances, le connecteur lit les données à l'aide de l'API BigQuery Storage. Cette utilisation vous est facturée conformément aux tarifs de l'API BigQuery Storage.

Connecteurs disponibles

Les connecteurs BigQuery suivants sont disponibles dans l'écosystème Hadoop:

  1. Le connecteur Spark BigQuery ajoute une source de données Spark qui permet aux données DataFrames d'interagir directement avec les tables BigQuery à l'aide des opérations read et write de Spark.
  2. Le connecteur Hive BigQuery ajoute un gestionnaire de stockage, qui permet à Apache Hive d'interagir directement avec les tables BigQuery à l'aide de la syntaxe HiveQL.
  3. Le connecteur Hadoop BigQuery permet aux mappeurs et réducteurs Hadoop d'interagir avec les tables BigQuery à l'aide de versions abstraites des classes InputFormat et OutputFormat.

Utiliser les connecteurs

Pour commencer à utiliser le connecteur BigQuery, consultez les exemples suivants :

Étape suivante