Diese Seite wurde von der Cloud Translation API übersetzt.

Einführung in das Laden von Daten

In diesem Dokument wird beschrieben, wie Sie Daten in BigQuery laden. Die beiden gängigen Ansätze zur Datenintegration sind das Extrahieren, Laden und Transformieren (ELT) oder das Extrahieren, Transformieren und Laden (ETL) von Daten.

Eine Übersicht über ELT- und ETL-Ansätze finden Sie unter Einführung in das Laden, Transformieren und Exportieren von Daten.

Methoden zum Laden oder Zugriff auf externe Daten

Auf der BigQuery-Seite finden Sie im Dialogfeld Daten hinzufügen alle verfügbaren Methoden zum Laden von Daten in BigQuery oder zum Zugriff auf Daten in BigQuery. Wählen Sie je nach Anwendungsfall und Datenquellen eine der folgenden Optionen aus:

Lademethode	Beschreibung
Batch-Ladevorgang	Diese Methode eignet sich für das Batch-Laden großer Datenmengen aus verschiedenen Quellen. Für das Batch- oder inkrementelle Laden von Daten aus Cloud Storage und anderen unterstützten Datenquellen empfehlen wir den BigQuery Data Transfer Service. Mit dem BigQuery Data Transfer Service können Sie Ladejobs planen, um Pipelines für das Laden von Daten in BigQuery zu automatisieren. Sie können einmalige oder Batch-Datenübertragungen in regelmäßigen Abständen planen, z. B. täglich oder monatlich. Damit Ihre BigQuery-Daten immer auf dem neuesten Stand sind, können Sie Ihre Übertragungen überwachen und protokollieren. Eine Liste der vom BigQuery Data Transfer Service unterstützten Datenquellen finden Sie unter Unterstützte Datenquellen.
Streaming-Last	Mit dieser Methode können Daten nahezu in Echtzeit aus Nachrichtensystemen geladen werden. Sie können ein BigQuery-Abo in Pub/Sub verwenden, um Daten in BigQuery zu streamen. Pub/Sub kann einen hohen Durchsatz von Datenladungen in BigQuery verarbeiten. Es unterstützt Echtzeit-Datenstreaming und lädt Daten direkt beim Erstellen. Weitere Informationen finden Sie unter BigQuery-Abos.
Change Data Capture (CDC)	Mit dieser Methode können Daten nahezu in Echtzeit aus Datenbanken in BigQuery repliziert werden. Datastream kann Daten mit nahezu Echtzeit-Replikation aus Datenbanken in BigQuery streamen. Datastream nutzt CDC-Funktionen, um Änderungen auf Zeilenebene aus Ihren Datenquellen zu erfassen und zu replizieren. Eine Liste der von Datastream unterstützten Datenquellen finden Sie unter Quellen.
Verknüpfung mit externen Datenquellen	Mit dieser Methode können Sie auf externe Daten zugreifen, ohne sie in BigQuery laden zu müssen. BigQuery unterstützt den Zugriff auf ausgewählte externe Datenquellen über Cloud Storage und föderierte Abfragen. Der Vorteil dieser Methode besteht darin, dass Sie die Daten nicht laden müssen, bevor Sie sie für die spätere Verwendung transformieren. Sie können die Transformation ausführen, indem Sie `SELECT`-Anweisungen auf die externen Daten ausführen.

Sie können die Daten auch mit den folgenden programmatischen Methoden laden:

Lademethode Beschreibung

Batch-Ladevorgang Sie können Daten aus Cloud Storage oder aus einer lokalen Datei laden, indem Sie einen Ladejob erstellen.

Wenn sich die Quelldaten selten ändern oder Sie nicht ständig aktualisierte Ergebnisse benötigen, sind Ladejobs eine kostengünstigere und weniger ressourcenintensive Möglichkeit, Daten in BigQuery zu laden.

Die geladenen Daten können im Avro-, CSV-, JSON-, ORC- oder Parquet-Format vorliegen. Sie können den Ladejob auch mit der SQL-Anweisung LOAD DATA erstellen.

Gängige Open-Source-Systeme wie Spark und verschiedene ETL-Partner unterstützen auch das Batch-Laden von Daten in BigQuery.

Streaming-Last Wenn Sie benutzerdefinierte Streaming-Datenquellen unterstützen oder Daten vor dem Streaming mit hohem Durchsatz in BigQuery vorverarbeiten müssen, verwenden Sie Dataflow.

Weitere Informationen zum Laden von Dataflow in BigQuery finden Sie unter Aus Dataflow in BigQuery schreiben.

Sie können auch direkt die BigQuery Storage Write API verwenden.

Lademethode	Beschreibung
Batch-Ladevorgang	Sie können Daten aus Cloud Storage oder aus einer lokalen Datei laden, indem Sie einen Ladejob erstellen. Wenn sich die Quelldaten selten ändern oder Sie nicht ständig aktualisierte Ergebnisse benötigen, sind Ladejobs eine kostengünstigere und weniger ressourcenintensive Möglichkeit, Daten in BigQuery zu laden. Die geladenen Daten können im Avro-, CSV-, JSON-, ORC- oder Parquet-Format vorliegen. Sie können den Ladejob auch mit der SQL-Anweisung `LOAD DATA` erstellen. Gängige Open-Source-Systeme wie Spark und verschiedene ETL-Partner unterstützen auch das Batch-Laden von Daten in BigQuery.
Streaming-Last	Wenn Sie benutzerdefinierte Streaming-Datenquellen unterstützen oder Daten vor dem Streaming mit hohem Durchsatz in BigQuery vorverarbeiten müssen, verwenden Sie Dataflow. Weitere Informationen zum Laden von Dataflow in BigQuery finden Sie unter Aus Dataflow in BigQuery schreiben. Sie können auch direkt die BigQuery Storage Write API verwenden.

Cloud Data Fusion kann Ihnen dabei helfen, Ihren ETL-Prozess zu vereinfachen. BigQuery kann auch mit Drittanbietern verwendet werden, die Daten in BigQuery transformieren und laden.

In BigQuery können Sie externe Verbindungen erstellen, um Daten abzufragen, die außerhalb von BigQuery in Google Cloud Diensten wie Cloud Storage oder Spanner oder in Drittanbieterquellen wie Amazon Web Services (AWS) oder Microsoft Azure gespeichert sind. Für diese externen Verbindungen wird die BigQuery Connection API verwendet. Weitere Informationen finden Sie unter Einführung in Verbindungen.

Andere Möglichkeiten zur Datenerhebung

Sie können Abfragen für Daten ausführen, ohne sie selbst in BigQuery laden zu müssen. In den folgenden Abschnitten werden einige Alternativen beschrieben.

In der folgenden Liste werden einige der Alternativen beschrieben:

Abfragen für öffentliche Daten ausführen

Öffentliche Datasets sind in BigQuery gespeicherte Datasets, die für die Öffentlichkeit freigegeben sind. Weitere Informationen finden Sie unter Öffentliche BigQuery-Datasets.

Abfragen für freigegebene Daten ausführen

Wie Sie Abfragen für ein BigQuery-Dataset ausführen, das andere für Sie freigegeben haben, erfahren Sie unter Einführung in die BigQuery-Freigabe (früher Analytics Hub). Sharing ist eine Datenaustauschplattform, die die Datenfreigabe ermöglicht.

Abfragen mit Logdaten ausführen

Sie können Abfragen auf Protokolle ausführen, ohne zusätzliche Ladejobs zu erstellen:

Mit Cloud Logging können Sie Logs an ein BigQuery-Ziel weiterleiten.
Mit Log Analytics können Sie Abfragen ausführen, mit denen Ihre Logdaten analysiert werden.

Nächste Schritte

Informationen zum Vorbereiten von Daten mit Gemini in BigQuery
Weitere Informationen zum Transformieren von Daten mit Dataform
Weitere Informationen zum Überwachen von Ladejobs finden Sie im Explorer für Verwaltungsjobs und in den BigQuery-Messwerten.