BigQuery-Connector

Mit einem BigQuery-Connector können Sie programmatischen Lese-/Schreibzugriff auf BigQuery ermöglichen. Dies ist ideal für die Verarbeitung von Daten, die in BigQuery gespeichert sind. Der Befehlszeilenzugriff wird nicht verfügbar gemacht. Der BigQuery-Connector ist eine Bibliothek, mit der Spark- und Hadoop-Anwendungen Daten aus BigQuery verarbeiten und in dessen nativer Terminologie in BigQuery schreiben können.

Kosten

Bei Verwendung des Connectors umfassen die Kosten die BigQuery-Nutzungsgebühren. Außerdem können folgende dienstspezifische Gebühren anfallen:

  • Cloud Storage: Der Connector lädt Daten vor oder während der Jobausführung in einen Cloud Storage-Bucket herunter. Diese Daten werden nach dem erfolgreichen Abschluss des Hadoop-Jobs wieder aus Cloud Storage gelöscht. Die Kosten für die Datenspeicherung entsprechen den in Cloud Storage – Preise angegebenen Preisen. Prüfen Sie Ihr Cloud Storage-Konto und entfernen Sie nicht benötigte temporäre Dateien, um übermäßige Gebühren zu vermeiden.
  • BigQuery Storage API: Der Connector liest Daten mit der BigQuery Storage API, um eine bessere Leistung zu erzielen. Diese Nutzung wird Ihnen gemäß den Preisen für die BigQuery Storage API in Rechnung gestellt.

Verfügbare Connectors

Die folgenden BigQuery-Connectors stehen in Hadoop zur Verfügung:

  1. Der Spark BigQuery-Connector fügt eine Spark-Datenquelle hinzu, die es DataFrames ermöglicht, mithilfe der read- und write-Vorgänge von Spark direkt mit BigQuery-Tabellen zu interagieren.
  2. Der Hive BigQuery-Connector fügt einen Speicher-Handler hinzu, mit dem Apache Hive direkt mit BigQuery-Tabellen über die HiveQL-Syntax interagieren kann.
  3. Der Hadoop BigQuery-Connector ermöglicht Hadoop-Mapper und -Reducern die Interaktion mit BigQuery-Tabellen mithilfe abstrahierter Versionen der Klassen InputFormat und OutputFormat.

Connectors verwenden

Folgende Beispiele ermöglichen den schnellen Einstieg in BigQuery-Connectors:

Nächste Schritte