Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Cloud Storage-Übertragungen

Mit dem BigQuery Data Transfer Service für Cloud Storage können Sie wiederkehrende Datenladevorgänge von Cloud Storage nach BigQuery planen. Der Cloud Storage-Pfad und die Zieltabelle können beide parametrisiert werden, sodass Sie Daten aus Cloud Storage-Buckets nach Datum geordnet laden können.

Unterstützte Dateiformate

Derzeit unterstützt BigQuery Data Transfer Service das Laden von Daten aus Cloud Storage mit den folgenden Formaten:

  • Kommagetrennte Werte (CSV)
  • JSON (durch Zeilenumbruch getrennt)
  • Avro
  • Parquet
  • ORC

Unterstützte Komprimierungstypen

Der BigQuery Data Transfer Service für Cloud Storage unterstützt das Laden komprimierter Daten. Die Komprimierungstypen, die vom BigQuery Data Transfer Service unterstützt werden, sind mit denen identisch, die von BigQuery-Ladejobs unterstützt werden. Weitere Informationen finden Sie unter Komprimierte und unkomprimierte Daten laden.

Cloud Storage-URI

Wenn Sie Daten aus einer Cloud Storage-Datenquelle laden möchten, müssen Sie den Cloud Storage-URI angeben.

Der Cloud Storage-URI enthält den Namen Ihres Buckets und Ihr Objekt (Dateiname). Wenn der Cloud Storage-Bucket beispielsweise den Namen mybucket hat und die Datendatei den Namen myfile.csv hat, lautet der Bucket-URI gs://mybucket/myfile.csv. Wenn Ihre Daten auf mehrere Dateien verteilt sind, können Sie im URI einen Platzhalter verwenden. Weitere Informationen dazu finden Sie unter Anfrage-URIs für Cloud Storage.

BigQuery unterstützt keine Quell-URIs, die nach dem anfänglichen doppelten Schrägstrich weitere, aufeinanderfolgende Schrägstriche enthalten. Cloud Storage-Objektnamen können mehrere aufeinanderfolgende Schrägstriche ("/") enthalten. BigQuery wandelt sie jedoch in einen einzelnen Schrägstrich um. Der folgende Quell-URI ist beispielsweise in Cloud Storage gültig, funktioniert aber nicht in BigQuery: gs://bucket/my//object//name

So rufen Sie den Cloud Storage-URI ab:

  1. Öffnen Sie die Cloud Storage-Konsole.

    Cloud Storage-Konsole

  2. Gehen Sie zum Standort des Objekts (Datei), das die Quelldaten enthält.

  3. Am oberen Rand der Cloud Storage Console sehen Sie den Pfad zum Objekt. Wenn Sie den URI erstellen möchten, ersetzen Sie gs://bucket/file durch den entsprechenden Pfad, z. B. gs://mybucket/myfile.json. bucket ist der Name des Cloud Storage-Buckets und file der Name des Objekts (Datei), das die Daten enthält.

Unterstützung von Platzhaltern für Cloud Storage-URIs

Wenn Cloud Storage-Daten auf mehrere Dateien verteilt sind, die einen gemeinsamen Basisnamen haben, können Sie beim Laden der Daten einen Platzhalter im URI verwenden.

Hängen Sie als Platzhalter im Cloud Storage-URI ein Sternchen (*) an den Basisnamen an. Beispiel: Bei zwei Dateien namens fed-sample000001.csv und fed-sample000002.csv wäre der Bucket-URI gs://mybucket/fed-sample*. Dieser Platzhalter-URI kann dann in der Google Cloud Console oder der Google Cloud CLI verwendet werden.

Sie können mehrere Platzhalter für Objekte (Dateinamen) in Buckets verwenden. Der Platzhalter kann dabei an einer beliebigen Stelle im Objektnamen stehen.

Platzhalter erweitern kein Verzeichnis in einem gs://bucket/. So findet gs://bucket/dir/* beispielsweise Dateien im Verzeichnis dir, findet aber keine Dateien im Unterverzeichnis gs://bucket/dir/subdir/.

Auch die Verwendung von Präfixen ohne Platzhalter ist nicht möglich. So führt beispielsweise gs://bucket/dir weder zu einer Übereinstimmung mit gs://bucket/dir/file.csv noch mit gs://bucket/file.csv.

Allerdings können Sie mehrere Platzhalter für Dateinamen in Buckets verwenden. Beispielsweise führt gs://bucket/dir/*/*.csv zu Übereinstimmungen mit gs://bucket/dir/subdir/file.csv.

Beispiele für die Unterstützung von Platzhaltern in Kombination mit parametrisierten Tabellennamen finden Sie unter Laufzeitparameter in Übertragungen verwenden.

Überlegungen zum Standort

Ihr Cloud Storage-Bucket muss sich in einer Region oder in mehreren Regionen befinden, die mit der Region oder mit dem multiregionalen Standort des Ziel-Datasets in BigQuery kompatibel ist bzw. sind.

  • Wenn sich Ihr BigQuery-Dataset in einer Multiregion befindet, muss sich der Cloud Storage-Bucket mit den Daten, die Sie übertragen, am selben Standort oder an einem Standort befinden, der sich in derselben Multiregion befindet. Wenn sich Ihr BigQuery-Dataset zum Beispiel in der Multiregion "EU" befindet, kann sich der Cloud Storage-Bucket in der Region "europe-west1" innerhalb der EU befinden.
  • Wenn sich Ihr Dataset in einer Region befindet, muss sich der Cloud Storage-Bucket in derselben Region befinden. Wenn sich Ihr Dataset zum Beispiel in der Region „asia-northeast1“ in Tokio befindet, kann sich der Cloud Storage-Bucket nicht am multiregionalen Standort „ASIA“ befinden.

Ausführliche Informationen zu Übertragungen und Regionen finden Sie unter Dataset-Standorte und Übertragungen.

Weitere Informationen zu Cloud Storage-Standorten finden Sie unter Bucket-Standorte in der Cloud Storage-Dokumentation.

Preise

Kontingente und Limits

BigQuery Data Transfer Service nutzt Ladejobs, um Cloud Storage-Daten in BigQuery zu laden.

Alle BigQuery-Kontingente und -Limits für Ladejobs gelten für wiederkehrende Cloud Storage-Ladejobs. Sie müssen jedoch Folgendes beachten:

Wert Limit
Maximale Größe pro Ladejob-Übertragungsausführung 15 TB
Maximale Anzahl an Dateien pro Übertragungsausführung 10.000 Dateien

Nächste Schritte