Einführung in das Laden von Daten

In diesem Dokument wird erläutert, wie Sie Daten in BigQuery laden. Die beiden gängigen Ansätze zur Datenintegration sind das Extrahieren, Laden und Transformieren (ELT) oder das Extrahieren, Transformieren und Laden (ETL) von Daten.

Eine Übersicht über ELT- und ETL-Ansätze finden Sie unter Einführung in das Laden, Transformieren und Exportieren von Daten.

Methoden zum Laden oder Zugriff auf externe Daten

Mit den folgenden Methoden können Sie Daten in BigQuery laden oder auf Daten in BigQuery zugreifen. Wählen Sie je nach Anwendungsfall und Datenquellen eine der folgenden Optionen aus:

Lademethode Beschreibung
Batch-Ladevorgang Diese Methode eignet sich für das Batch-Laden großer Datenmengen aus einer Vielzahl von Quellen.

Für das Batch- oder inkrementelle Laden von Daten aus Cloud Storage und anderen unterstützten Datenquellen empfehlen wir den BigQuery Data Transfer Service.

Mit dem BigQuery Data Transfer Service können Sie Ladejobs planen, um Workflows zum Laden von Daten in BigQuery zu automatisieren. Sie können einmalige oder Batch-Datenübertragungen in regelmäßigen Abständen planen, z. B. täglich oder monatlich. Damit Ihre BigQuery-Daten immer auf dem neuesten Stand sind, können Sie Ihre Übertragungen überwachen und protokollieren.

Eine Liste der vom BigQuery Data Transfer Service unterstützten Datenquellen finden Sie unter Unterstützte Datenquellen.
Streaming-Last Mit dieser Methode können Daten nahezu in Echtzeit aus Nachrichtensystemen geladen werden.

Sie können ein BigQuery-Abo in Pub/Sub verwenden, um Daten in BigQuery zu streamen. Pub/Sub kann einen hohen Durchsatz von Datenladungen in BigQuery verarbeiten. Es unterstützt das Echtzeit-Datenstreaming und lädt Daten direkt beim Erstellen. Weitere Informationen finden Sie unter BigQuery-Abos.
Change Data Capture (CDC) Mit dieser Methode können Daten nahezu in Echtzeit aus Datenbanken in BigQuery repliziert werden.

Datastream kann Daten mit nahezu Echtzeit-Replikation aus Datenbanken in BigQuery streamen. Datastream nutzt CDC-Funktionen, um Änderungen auf Zeilenebene aus Ihren Datenquellen zu verfolgen und zu replizieren.

Eine Liste der von Datastream unterstützten Datenquellen finden Sie unter Quellen.
Verknüpfung mit externen Datenquellen Mit dieser Methode können Sie auf externe Daten zugreifen, ohne sie in BigQuery laden zu müssen.

BigQuery unterstützt den Zugriff auf ausgewählte externe Datenquellen über Cloud Storage und föderierte Abfragen. Der Vorteil dieser Methode besteht darin, dass Sie die Daten nicht laden müssen, bevor Sie sie für die spätere Verwendung transformieren. Sie können die Transformation ausführen, indem Sie SELECT-Anweisungen auf die externen Daten anwenden.

Sie können die Daten auch mit den folgenden programmatischen Methoden laden:

Lademethode Beschreibung
Batch-Ladevorgang Sie können Daten aus Cloud Storage oder aus einer lokalen Datei laden, indem Sie einen Ladejob erstellen.

Wenn sich die Quelldaten selten ändern oder Sie nicht ständig aktualisierte Ergebnisse benötigen, sind Ladejobs eine kostengünstigere und weniger ressourcenintensive Möglichkeit, Daten in BigQuery zu laden.

Die geladenen Daten können im Avro-, CSV-, JSON-, ORC- oder Parquet-Format vorliegen. Sie können den Ladejob auch mit der SQL-Anweisung LOAD DATA erstellen.

Gängige Open-Source-Systeme wie Spark und verschiedene ETL-Partner unterstützen auch das Batch-Laden von Daten in BigQuery.
Streaming-Last Wenn Sie benutzerdefinierte Streaming-Datenquellen unterstützen oder Daten vor dem Streaming mit hohem Durchsatz in BigQuery vorverarbeiten müssen, verwenden Sie Dataflow oder die BigQuery Engine für Apache Flink.

Weitere Informationen zum Laden von Dataflow in BigQuery finden Sie unter Aus Dataflow in BigQuery schreiben.

Sie können auch direkt die BigQuery Storage Write API verwenden.

Cloud Data Fusion kann Ihnen dabei helfen, Ihren ETL-Prozess zu vereinfachen. BigQuery funktioniert auch mit Drittanbietern, die Daten in BigQuery transformieren und laden.

Andere Möglichkeiten zur Datenerhebung

Sie können Abfragen für Daten ausführen, ohne sie selbst in BigQuery laden zu müssen. In den folgenden Abschnitten werden einige Alternativen beschrieben.

In der folgenden Liste werden einige der Alternativen beschrieben:

Abfragen für öffentliche Daten ausführen

Öffentliche Datasets sind in BigQuery gespeicherte Datasets, die für die Öffentlichkeit freigegeben sind. Weitere Informationen finden Sie unter Öffentliche BigQuery-Datasets.

Abfragen für freigegebene Daten ausführen

Informationen zum Ausführen von Abfragen für ein BigQuery-Dataset, das andere mit Ihnen geteilt haben, finden Sie unter Einführung in Analytics Hub. Analytics Hub ist eine Datenpoolplattform, die die Datenfreigabe ermöglicht.

Abfragen mit Logdaten ausführen

Sie können Abfragen auf Protokolle ausführen, ohne zusätzliche Ladejobs zu erstellen:

Nächste Schritte