Was ist BigQuery Omni?

Mit BigQuery Omni können Sie BigQuery-Analysen für Daten ausführen, die in Amazon S3- oder Azure Blob-Speicher gespeichert sind.

Viele Organisationen speichern Daten in mehreren öffentlichen Clouds. Oft sind diese Daten isoliert gespeichert, da es schwierig ist, Erkenntnisse über alle Daten zu gewinnen. Sie möchten die Daten mit einem Multi-Cloud-Datentool analysieren können, das kostengünstig und schnell ist und keinen zusätzlichen Overhead für die dezentralisierte Data Governance verursacht. Durch die Verwendung von BigQuery Omni lassen sich diese Probleme mit einer einheitlichen Schnittstelle reduzieren.

BigQuery Omni bringt die BigQuery-Analyse-Engine zu Ihren Daten, wo sie sich befinden. Auf diese Weise können Sie auf Daten zugreifen und sie analysieren, ohne Daten verschieben oder kopieren zu müssen. Außerdem können Sie Daten zwischen Clouds verschieben, um sie mithilfe der cloudübergreifenden Übertragung zu kombinieren.

BigQuery Omni bietet eine cloudübergreifende Analyselösung mit der Möglichkeit, Daten dort zu analysieren, wo sie sind, und die Daten bei Bedarf flexibel zu replizieren.

Funktionsweise

Bei der Architektur von BigQuery ist die Trennung von Computing und Speicher möglich. Somit kann BigQuery nach Bedarf für die Verarbeitung sehr großer Arbeitslasten horizontal skalieren. BigQuery Omni erweitert diese Architektur durch Ausführung der BigQuery-Abfrage-Engine in anderen Clouds. Daher müssen Sie Daten nicht physisch in den BigQuery-Speicher verschieben. Die Verarbeitung findet dann statt, wenn die Daten bereits vorhanden sind.

BigQuery Omni-Architektur

Abfrageergebnisse können über eine sichere Verbindung an Google Cloud zurückgegeben werden, z. B. um in der Google Cloud Console angezeigt zu werden. Alternativ können Sie die Ergebnisse direkt in den Amazon S3-Speicher oder den Azure Blob-Speicher schreiben. In diesem Fall gibt es keine cloudübergreifende Verschiebung der Abfrageergebnisse.

BigQuery Omni verwendet die AWS IAM-Standardrollen oder Azure Active Directory-Prinzipien, um auf die Daten in Ihrem Abo zuzugreifen. Sie delegieren den Lese- oder Schreibzugriff auf BigQuery Omni und können die Zugriffsrechte jederzeit widerrufen.

Dataflow zwischen Google und AWS oder Azure

In der folgenden Abbildung wird der Dataflow für Abfragen beschrieben: die Anweisung SELECT. Es gilt auch für DDL-Anweisungen: CREATE EXTERNAL TABLE.

Dataflow zwischen Abfragen in Google und AWS oder Azure.

Schritt Google Cloud AWS oder Azure
1 Die BigQuery-Steuerungsebene erhält Abfragejobs vom Kunden über die Cloud Console oder die BigQuery-Befehlszeile.
2 BigQuery-Steuerungsebene sendet Abfragejobs zur Verarbeitung an die BigQuery-Datenebene (in AWS/Azure)
3 Die BigQuery-Datenebene empfängt Abfragen über eine VPN-Verbindung von der Steuerungsebene.
4 BigQuery-Datenebene liest Tabellendaten aus kundeneigenen Storage-Buckets (AWS S3- oder Azure Blob-Speicher)
5 Die BigQuery-Datenebene führt den Abfragejob für Tabellendaten aus. Die Tabellendaten werden in der ausgewählten AWS- oder Azure-Region verarbeitet
6 Das Abfrageergebnis (bis zu 2 MB) wird von der Datenebene zur VPN-Verbindung an die Steuerungsebene übertragen.
7 Die BigQuery-Steuerungsebene empfängt Abfrageergebnisse für die Anzeige in Form eines Abfragejobs an den Kunden. Diese Daten werden vorübergehend gespeichert (bis zu 24 Stunden).
8 Das Abfrageergebnis wird an den Nutzer zurückgegeben.

In der folgenden Abbildung wird der Dataflow für Exportabfragen beschrieben: EXPORT DATA.

Dataflow zwischen Google und AWS oder Azure für Exportabfragen.

Schritt Google Cloud AWS oder Azure
1 Die BigQuery-Steuerungsebene empfängt Exportabfragejobs vom Kunden über die Cloud Console oder die BigQuery-Befehlszeile/API. Die Abfrage enthält den Zielpfad für das Abfrageergebnis zu kundeneigenen Storage-Buckets (AWS S3- oder Azure Blob-Speicher).
2 BigQuery-Steuerungsebene sendet Exportabfragejobs zur Verarbeitung an die BigQuery-Datenebene (in AWS/Azure)
3 Die BigQuery-Datenebene empfängt Exportabfragen über eine VPN-Verbindung von der Steuerungsebene
4 BigQuery-Datenebene liest Tabellendaten aus kundeneigenen Storage-Buckets (AWS S3- oder Azure Blob-Speicher)
5 Die BigQuery-Datenebene führt den Abfragejob für Tabellendaten aus. Die Tabellendaten werden in der ausgewählten AWS- oder Azure-Region verarbeitet
6 BigQuery schreibt das Abfrageergebnis in den angegebenen Zielpfad in kundeneigenen Storage-Buckets (AWS S3- oder Azure Blob-Speicher)

Vorteile von BigQuery Omni

Leistung. Sie erhalten schneller Einblicke, da die Daten nicht in andere Clouds kopiert werden und die Abfragen in derselben Region ausgeführt werden, in der sich Ihre Daten befinden.

Kosten. Sie sparen Kosten für ausgehenden Netzwerktraffic, da die Daten nicht verschoben werden. Für Ihr AWS- oder Azure-Konto im Zusammenhang mit BigQuery Omni-Analysen fallen keine zusätzlichen Gebühren an, da die Abfragen auf von Google verwalteten Clustern ausgeführt werden. Sie bezahlen nur für das Abfragen des BigQuery-Preismodells.

Sicherheit und Data Governance: Sie verwalten die Daten in Ihrem eigenen AWS- oder Azure-Abo. Sie müssen die Rohdaten nicht aus Ihrer öffentlichen Cloud verschieben oder kopieren. Die gesamte Berechnung erfolgt im BigQuery-Dienst mit mehreren Mandanten, der in derselben Region wie Ihre Daten ausgeführt wird.

Serverlose Architektur. Wie der Rest von BigQuery ist auch BigQuery Omni ein serverloses Angebot. Google stellt die Cluster bereit, die BigQuery Omni ausführen, und verwaltet diese. Sie müssen keine Ressourcen bereitstellen oder Cluster verwalten.

Einfache Verwaltung. BigQuery Omni bietet über Google Cloud eine einheitliche Verwaltungsoberfläche. BigQuery Omni kann Ihr vorhandenes Google Cloud-Konto und Ihre BigQuery-Projekte verwenden. Sie können eine Standard-SQL-Abfrage in der Cloud Console schreiben, um Daten in AWS oder Azure abzufragen, und die Ergebnisse in der Cloud Console anzeigen zu lassen.

Cloudübergreifende Übertragung. Sie können Daten aus S3-Buckets und dem Azure Blob-Speicher in native BigQuery-Tabellen laden. Weitere Informationen finden Sie unter Cloudübergreifende Übertragung (AWS) und Cloudübergreifende Übertragung (Azure).

Beschränkungen

Zu den BigQuery Omni-Einschränkungen gehören:

  • On-Demand-Preise werden nicht unterstützt. Weitere Informationen finden Sie in diesem Dokument unter Preise.
  • Sie können keine Standardtabellen in BigQuery Omni erstellen. BigQuery Omni unterstützt nur externe Tabellen.
  • Alle Einschränkungen für externe Tabellen gelten für externe BigQuery Omni-Tabellen.
  • Die maximale Ergebnisgröße für interaktive Abfragen beträgt 2 MB.
  • Die BigQuery-INFORMATION_SCHEMA-Ansichten OBJECT_PRIVILEGES, STREAMING_TIMELINE_BY_* und TABLE_SNAPSHOTS sind für BigQuery Omni-Tabellen nicht verfügbar.
  • Joins mit anderen INFORMATION_SCHEMA-Tabellen und anderen externen Tabellen in aws-us-east-1 oder azure-eastus2 werden nicht unterstützt.
  • Materialisierte Ansichten für externe BigQuery Omni-Tabellen werden nicht unterstützt.
  • Die folgenden SQL-Anweisungen werden nicht unterstützt:

  • Geplante Abfragen werden nur über die API oder die Befehlszeile unterstützt.

  • Die Option Zieltabelle ist für Abfragen in BigQuery Omni deaktiviert. Nur EXPORT-Abfragen sind zulässig.

  • BigQuery Storage API ist in BigQuery Omni-Regionen nicht verfügbar.

Preise

BigQuery Omni bietet Pauschalpreise, die wiederum vorhersehbare Kosten für Abfragen liefern. Verwenden Sie BigQuery Reservations, um Slots in einer der BigQuery Omni-Regionen zu erwerben.

Weitere Informationen finden Sie unter BigQuery Omni-Preise.

Ort

BigQuery Omni verarbeitet Abfragen am selben Standort wie das Dataset, das die Tabellen enthält, die Sie abfragen. Nachdem Sie das Dataset erstellt haben, kann der Standort nicht mehr geändert werden. Ihre Daten befinden sich in Ihrem eigenen AWS- oder Azure-Konto.

Unterstützte Regionen

Beschreibung der Region Name der Region
AWS
AWS – US East (N. Virginia) aws-us-east-1
Azure
Azure – East US 2 azure-eastus2

Nächste Schritte