Cloud Storage-Übertragungen

Mit dem BigQuery Data Transfer Service für Cloud Storage können Sie wiederkehrende Datenladevorgänge von Cloud Storage nach BigQuery planen. Der Cloud Storage-Pfad und die Zieltabelle können beide parametrisiert werden, sodass Sie Daten aus Cloud Storage-Buckets nach Datum geordnet laden können.

Unterstützte Dateiformate

Derzeit unterstützt BigQuery Data Transfer Service das Laden von Daten aus Cloud Storage mit den folgenden Formaten:

  • Kommagetrennte Werte (CSV)
  • JSON (durch Zeilenumbruch getrennt)
  • Avro
  • Parquet
  • ORC

Unterstützte Komprimierungstypen

Der BigQuery Data Transfer Service für Cloud Storage unterstützt das Laden komprimierter Daten. Die Komprimierungstypen, die vom BigQuery Data Transfer Service unterstützt werden, sind mit denen identisch, die von BigQuery-Ladejobs unterstützt werden. Weitere Informationen finden Sie unter Komprimierte und unkomprimierte Daten laden.

Cloud Storage-URI

Wenn Sie Daten aus einer Cloud Storage-Datenquelle laden möchten, müssen Sie den Cloud Storage-URI angeben.

Der Cloud Storage-URI enthält den Namen Ihres Buckets und Ihr Objekt (Dateiname). Wenn der Cloud Storage-Bucket beispielsweise den Namen mybucket hat und die Datendatei den Namen myfile.csv hat, lautet der Bucket-URI gs://mybucket/myfile.csv. Wenn Ihre Daten auf mehrere Dateien verteilt sind, können Sie im URI einen Platzhalter verwenden. Weitere Informationen dazu finden Sie unter Anfrage-URIs für Cloud Storage.

BigQuery Data Transfer Service unterstützt keine Quell-URIs, die nach dem anfänglichen doppelten Schrägstrich weitere, aufeinanderfolgende Schrägstriche enthalten. Cloud Storage-Objektnamen können mehrere aufeinanderfolgende Schrägstriche ("/") enthalten. BigQuery Data Transfer Service wandelt sie jedoch in einen einzelnen Schrägstrich um. Der folgende Quell-URI ist beispielsweise in Cloud Storage gültig, funktioniert aber nicht im BigQuery Data Transfer Service: gs://bucket/my//object//name

So rufen Sie den Cloud Storage-URI ab:

  1. Öffnen Sie die Cloud Storage-Konsole.

    Cloud Storage-Konsole

  2. Gehen Sie zum Standort des Objekts (Datei), das die Quelldaten enthält.

  3. Am oberen Rand der Cloud Storage Console sehen Sie den Pfad zum Objekt. Wenn Sie den URI erstellen möchten, ersetzen Sie gs://bucket/file durch den entsprechenden Pfad, z. B. gs://mybucket/myfile.json. bucket ist der Name des Cloud Storage-Buckets und file der Name des Objekts (Datei), das die Daten enthält.

Unterstützung von Platzhaltern für Cloud Storage-URIs

Wenn Cloud Storage-Daten auf mehrere Dateien verteilt sind, die einen gemeinsamen Basisnamen haben, können Sie beim Laden der Daten einen Platzhalter im URI verwenden.

Hängen Sie als Platzhalter im Cloud Storage-URI ein Sternchen (*) an den Basisnamen an. Beispiel: Bei zwei Dateien namens fed-sample000001.csv und fed-sample000002.csv wäre der Bucket-URI gs://mybucket/fed-sample*. Dieser Platzhalter-URI kann dann in der Cloud Console oder im gcloud-Befehlszeilentool verwendet werden.

Sie können mehrere Platzhalter für Objekte (Dateinamen) in Buckets verwenden. Der Platzhalter kann dabei an einer beliebigen Stelle im Objektnamen stehen.

Platzhalter erweitern kein Verzeichnis in einem gs://bucket/. So findet gs://bucket/dir/* beispielsweise Dateien im Verzeichnis dir, findet aber keine Dateien im Unterverzeichnis gs://bucket/dir/subdir/.

Auch die Verwendung von Präfixen ohne Platzhalter ist nicht möglich. So führt beispielsweise gs://bucket/dir weder zu einer Übereinstimmung mit gs://bucket/dir/file.csv noch mit gs://bucket/file.csv.

Allerdings können Sie mehrere Platzhalter für Dateinamen in Buckets verwenden. Beispielsweise führt gs://bucket/dir/*/*.csv zu Übereinstimmungen mit gs://bucket/dir/subdir/file.csv.

Beispiele für die Unterstützung von Platzhaltern in Kombination mit parametrisierten Tabellennamen finden Sie unter Laufzeitparameter in Übertragungen verwenden.

Überlegungen zum Standort

Ihr Cloud Storage-Bucket muss sich in einer Region oder mehreren Regionen befinden, die mit der Region oder dem multiregionalen Standort des Ziel-Datasets in BigQuery kompatibel ist.

Platzieren Sie die Cloud Storage-Buckets zum Exportieren von Daten am selben Standort wie das Dataset:
  • Wenn sich Ihr BigQuery-Dataset an einem multiregionalen Standort befindet, muss der Cloud Storage-Bucket mit den Daten, die Sie übertragen, in einem regionalen oder multiregionalen Bucket am selben Standort sein. Wenn sich Ihr BigQuery-Dataset zum Beispiel in der EU befindet, muss sich der Cloud Storage-Bucket in einem regionalen oder multiregionalen Bucket in der EU befinden.
  • Wenn sich Ihr Dataset an einem regionalen Standort befindet, muss der Cloud Storage-Bucket ein regionaler Bucket am selben Standort sein. Befindet sich Ihr Dataset zum Beispiel in der Region "Tokio", muss auch der Cloud Storage-Bucket ein regionaler Bucket in Tokio sein.
  • Ausnahme: Wenn sich Ihr Dataset an einem multiregionalen Standort in den USA befindet, können Sie Daten aus einem Cloud Storage-Bucket an einem beliebigen regionalen oder multiregionalen Standort übertragen.

Ausführliche Informationen zu Übertragungen und Regionen finden Sie unter Dataset-Standorte und Übertragungen.

Weitere Informationen zu Cloud Storage-Standorten finden Sie unter Bucket-Standorte in der Cloud Storage-Dokumentation.

Preise

Kontingente und Limits

BigQuery Data Transfer Service nutzt Ladejobs, um Cloud Storage-Daten in BigQuery zu laden.

Alle BigQuery-Kontingente und -Limits für Ladejobs gelten für wiederkehrende Cloud Storage-Ladejobs.

Weitere Informationen