Einführung in Analytics Hub

Analytics Hub ist eine Datenpoolplattform, auf der Sie Daten und Statistiken in großem Umfang über Organisationsgrenzen hinweg mit einem robusten Sicherheits- und Datenschutz-Framework teilen können. Mit Analytics Hub können Sie eine Datenbibliothek finden, die von verschiedenen Datenanbietern zusammengestellt wurde, und darauf zugreifen. Diese Datenbibliothek enthält auch von Google bereitgestellte Datasets.

Mit Analytics Hub können Sie Ihre Analyse- und ML-Initiativen beispielsweise mit Datasets von Drittanbietern und von Google erweitern.

Als Analytics Hub-Nutzer können Sie die folgenden Aufgaben ausführen:

  • Als Analytics Hub-Publisher können Sie Daten monetarisieren, indem Sie sie in Echtzeit in Ihrem Partnernetzwerk oder in Ihrer eigenen Organisation freigeben. Mit Einträgen können Sie Daten freigeben, ohne die freigegebenen Daten zu replizieren. Sie können einen Katalog analysefähiger Datenquellen mit detaillierten Berechtigungen erstellen, um Daten an die richtigen Zielgruppen zu senden. Sie können auch Abos verwalten und die Nutzungsmesswerte für Ihre Einträge aufrufen.

  • Als Analytics Hub-Abonnent können Sie die gewünschten Daten finden, freigegebene Daten mit Ihren vorhandenen Daten kombinieren und die integrierten Features von BigQuery nutzen. Wenn Sie einen Eintrag abonnieren, wird in Ihrem Projekt ein verknüpftes Dataset erstellt. Sie können Ihre Abos mithilfe der Aboressource verwalten, die relevante Informationen über den Abonnenten speichert und die Verbindung zwischen Publisher und Abonnent darstellt.

  • Als Analytics Hub-Betrachter können Sie die Datasets durchsuchen, auf die Sie in Analytics Hub Zugriff haben, und den Publisher um Zugriff auf die freigegebenen Daten bitten.

  • Als Analytics Hub-Administrator können Sie einen Datenpool erstellen, der die Datenfreigabe ermöglicht, und dann Daten-Publishern und -Abonnenten Berechtigungen für den Zugriff auf diesen Datenpool gewähren.

Weitere Informationen zu Analytics Hub-Nutzerrollen finden Sie unter Analytics Hub-Rollen konfigurieren.

Architektur

Analytics Hub basiert auf einem Modell zum Veröffentlichen und Abonnieren von BigQuery-Datasets. Durch die Trennung von Computing und Speicherung in der BigQuery-Architektur können Daten-Publisher Daten an beliebig viele Abonnenten freigeben, ohne mehrere Kopien der Daten erstellen zu müssen. Publishern wird nur die Datenspeicherung in Rechnung gestellt; Abonnenten hingegen zahlen nur für Abfragen, die für die freigegebenen Daten ausgeführt werden. Die Workflows für Publisher und Abonnenten in Analytics Hub werden in den folgenden Abschnitten ausführlich erläutert.

Publisher-Workflow

Im folgenden Diagramm wird beschrieben, wie Publisher mit Analytics Hub interagieren:

Interaktion zwischen Analytics Hub-Publishern und Analytics Hub.
Abbildung 1. Workflow für Analytics Hub-Publisher

In Abbildung 1 sind die folgenden Features gekennzeichnet: Freigegebenes Dataset, Datenpool und Eintrag.

Freigegebene Datasets
Ein freigegebenes Dataset ist ein BigQuery-Dataset, das die Einheit der Datenfreigabe in Analytics Hub ist. Als Publisher erstellen oder verwenden Sie ein vorhandenes BigQuery-Dataset in Ihrem Projekt mit folgenden unterstützten Objekten, die Sie an Ihre Abonnenten senden möchten: Freigegebene Datasets unterstützen die Sicherheit auf Spaltenebene und auf Zeilenebene.
Datenpools
Ein Datenpool ist ein Container, der die Self-Service-Datenfreigabe ermöglicht. Er enthält Einträge, die auf freigegebene Datasets verweisen. Mit Analytics Hub können Publisher und Administratoren Abonnenten auf Datenpool- und auf Eintragsebene Zugriff gewähren. Durch diese Methode wird verhindert, dass explizit Zugriff auf die zugrunde liegenden freigegebenen Datasets gewährt wird. Ein Analytics Hub-Abonnent kann Datenpools durchsuchen, Daten finden, auf die er zugreifen kann, und freigegebene Datasets abonnieren. Folgende Datenpooltypen gibt es:
  • Privater Datenpool. Standardmäßig ist ein Datenpool privat. Nur Nutzer oder Gruppen, die Zugriff darauf haben, können die Daten aufrufen oder abonnieren.
  • Öffentlicher Datenpool. Standardmäßig ist ein Datenpool privat. Nur Nutzer oder Gruppen, die Zugriff darauf haben, können die Einträge aufrufen oder abonnieren. Sie können jedoch einen Datenpool öffentlich machen. Einträge in öffentlichen Datenpools können von Google Cloud-Nutzern (allAuthenticatedUsers) gefunden und abonniert werden. Weitere Informationen zu öffentlichen Datenpools finden Sie unter Datenpool öffentlich machen.

Als Analytics Hub-Administrator können Sie mehrere Datenpools in Analytics Hub erstellen und andere Analytics Hub-Nutzer verwalten.

Einträge
Ein Eintrag ist ein Verweis auf ein freigegebenes Dataset, das ein Publisher in einem Datenpool auflistet. Als Publisher können Sie einen Eintrag erstellen und die Dataset-Beschreibung, Beispielabfragen für das Dataset, Links zu relevanter Dokumentation und zusätzliche Informationen angeben, die Abonnenten bei der Verwendung Ihres Datasets helfen. Weitere Informationen finden Sie unter Einträge verwalten. Ein Eintrag kann zu einem der folgenden beiden Typen gehören, basierend auf der IAM-Richtlinie (Identity and Access Management), die für den Eintrag festgelegt ist, und dem Typ des Datenpools, der den Eintrag enthält:
  • Öffentlicher Eintrag. Solche Einträge werden für alle Google Cloud-Nutzer (allAuthenticatedUsers) freigegeben. Einträge in öffentlichen Datenpools sind öffentliche Einträge. Diese Einträge können Verweise auf ein kostenloses öffentliches Dataset oder ein kommerzielles Dataset sein. Wenn der Eintrag ein kommerzielles Dataset betrifft, können Abonnenten Zugriff auf den Eintrag anfordern und der Datenanbieter kontaktiert diese Abonnenten dann direkt.
  • Privater Eintrag. Dieser wird direkt für Einzelpersonen oder Gruppen freigegeben. Beispielsweise kann ein privater Eintrag auf Marketingmesswerte-Datasets verweisen, die Sie für andere interne Teams in Ihrer Organisation freigeben.

Ausgehender Traffic

Durch das Festlegen von Optionen für ausgehenden Datenverkehr (Vorschau) können Sie den Export von Daten aus BigQuery beschränken. Nur Abonnenten mit Nicht versionsgebundenen Angeboten oder Enterprise Plus Edition können Daten mit Einschränkungen für ausgehenden Traffic abfragen. Sie können die Einschränkung des ausgehenden Datenverkehrs für einen Eintrag, die Ergebnisse einer Abfrage oder beides aktivieren. Wenn der ausgehende Datenverkehr eingeschränkt ist, werden die folgenden Beschränkungen angewendet:

  • Die APIs "Kopieren", "Klonen", "Exportieren" und "Snapshot" sind deaktiviert.

  • Die Optionen zum Kopieren, Klonen, Exportieren und Snapshot erstellen in der Google Cloud Console sind deaktiviert.

  • Das Verbinden des eingeschränkten Datasets mit dem Tabellen-Explorer ist deaktiviert.

  • BigQuery Data Transfer Service ist für das eingeschränkte Dataset deaktiviert.

  • CREATE TABLE AS SELECT-Anweisungen und Schreiben in eine Zieltabelle sind deaktiviert.

Wenn Sie einen Eintrag erstellen, können Sie die angemessenen Optionen für ausgehenden Datenverkehr festlegen.

Abonnenten-Workflow

Im folgenden Diagramm wird beschrieben, wie Abonnenten mit Analytics Hub interagieren:

Interaktion zwischen Analytics Hub-Abonnenten und Analytics Hub.
Abbildung 2. Workflow für Analytics Hub-Abonnenten.

In Abbildung 2 sind die folgenden Analytics Hub-Features gekennzeichnet: Freigegebenes Dataset ,Datenpool ,Eintrag undVerknüpftes Dataset.

Verknüpfte Datasets
Ein verknüpftes Dataset ist ein schreibgeschütztes BigQuery-Dataset, das als symbolische Verknüpfung zu einem freigegebenen Dataset dient. Wenn Sie einen Eintrag abonnieren, wird ein verknüpftes Dataset in Ihrem Projekt und keine Kopie des Datasets erstellt, sodass Abonnenten die Daten lesen, aber keine Objekte darin hinzufügen oder aktualisieren können. Wenn Sie Objekte wie Tabellen und Ansichten über ein verknüpftes Dataset abfragen, werden die Daten aus dem freigegebenen Dataset zurückgegeben. Weitere Informationen zu verknüpften Datasets finden Sie unter Einträge ansehen und abonnieren. Verknüpfte Datasets sind berechtigt, auf Tabellen und Ansichten eines freigegebenen Datasets zuzugreifen. Abonnenten mit verknüpften Datasets greifen auf Tabellen und Ansichten eines freigegebenen Datasets ohne zusätzliche IAM-Autorisierung zu. Verknüpfte Datasets unterstützen die folgenden Objekte:

Beschränkungen

Für Analytics Hub gelten die folgenden Einschränkungen:

  • Ein freigegebenes Dataset kann maximal 1.000 verknüpfte Datasets haben.

  • Ein Dataset mit nicht unterstützten Ressourcen kann beim Erstellen eines Eintrags nicht als freigegebenes Dataset ausgewählt werden. Weitere Informationen zu den von Analytics Hub unterstützten BigQuery-Objekten finden Sie in diesem Dokument unter Freigegebene Datasets.

  • Sie können einen Eintrag nicht aktualisieren, um den ausgehenden Datenverkehr zu beschränken. Der ausgehende Traffic kann nur für einen neuen Eintrag eingeschränkt werden.

  • Verknüpfte Datasets, die vor dem 25. Juli 2023 erstellt wurden, werden nicht von der Aboressource per Backfill ausgefüllt. Nur Abos, die nach dem 25. Juli 2023 erstellt wurden, funktionieren mit den API-Methoden.

  • Wenn Sie ein Publisher sind, gelten die folgenden Einschränkungen für die BigQuery-Interoperabilität:

    • Abonnenten können keine Ansichten in verknüpften Datasets abfragen, die auf Daten aus anderen Projekten verweisen. Sie müssen autorisierte Ansichten erstellen, um Abonnenten Zugriff auf die Ansichtsdaten zu gewähren, ohne ihnen Zugriff auf die zugrunde liegenden Quelldaten zu erteilen.

    • Der Abfrageplan enthält die Abfrage der freigegebenen Ansicht und die Routinenabfrage, einschließlich Projekt-IDs, und andere Datasets, die autorisierten Ansichten zugrunde liegen. Fügen Sie in keinem Fall Dinge wie Verschlüsselungsschlüssel hinzu, die für Sie in der Abfrage der freigegebenen Ansicht oder der Routinen-Abfrage vertraulich sind.

    • Freigegebene Datasets werden in Data Catalog indexiert. Aktualisierungen für ein freigegebenes Dataset, z. B. das Hinzufügen von Tabellen oder Ansichten, werden Abonnenten ohne Verzögerung zur Verfügung gestellt. In bestimmten Szenarien, z. B. wenn es mehr als hundert Abonnenten oder Tabellen in einem gemeinsam genutzten Dataset gibt, kann es jedoch bis zu 18 Stunden dauern, bis die Aktualisierungen im Datenkatalog indiziert werden. Aufgrund der Verzögerung bei der Indexierung können Abonnenten nicht sofort in der Google Cloud Console nach diesen aktualisierten Ressourcen suchen.

    • Wenn Sie Richtlinien für die Sicherheit auf Zeilenebene oder Datenmaskierung für die aufgeführten Tabellen eingerichtet haben, müssen Abonnenten ein Enterprise oder Enterprise Plus-Kunde sein, um den Abfragejob für das verknüpfte Dataset auszuführen. Informationen zu Editionen finden Sie unter Einführung in BigQuery-Editionen.

  • Wenn Sie Abonnent sind, gelten die folgenden Einschränkungen für die BigQuery-Interoperabilität:

    • Materialisierte Ansichten, die auf Tabellen im verknüpften Dataset verweisen, werden nicht unterstützt.

    • Das Erstellen von Snapshots verknüpfter Dataset-Tabellen wird nicht unterstützt.

    • Wenn verknüpfte Datasets nicht zusammen mit dem freigegebenen Dataset gespeichert sind, schlagen Lesevorgänge für verknüpfte Dataset-Tabellen mit einer Abfragegröße von mehr als 1 TB möglicherweise fehl. Sie können den Support kontaktieren, um dieses Problem zu beheben.

    • Regions-Qualifier mit INFORMATION_SCHEMA-Ansichten können nicht zum Aufrufen von Tabellenmetadaten für das verknüpfte Dataset verwendet werden.

    • Beim Abfragen von Routinen in einem verknüpften Dataset können Sie nur Benutzerdefinierte Funktionen- (sowohl SQL- als auch JavaScript-UDFs) und Tabellenfunktionen-Routinetypen abfragen. Die Abfrage eines nicht unterstützten Routinentyps führt zu folgender Fehlermeldung: Querying routine type type is not yet supported on linked dataset dataset.

  • Für die Nutzungsmesswerte gelten folgende Einschränkungen:

Unterstützte Regionen

Analytics Hub wird in den folgenden Regionen und Multiregionen unterstützt.

Regionen

In der folgenden Tabelle sind die Regionen in Nord- und Südamerika aufgeführt, in denen Analytics Hub verfügbar ist.
Beschreibung der Region Name der Region Details
Iowa us-central1 Blattsymbol Niedriger CO2-Wert
Las Vegas us-west4
Los Angeles us-west2
Montreal northamerica-northeast1 Blattsymbol Niedriger CO2-Wert
Northern Virginia us-east4
Oregon us-west1 Blattsymbol Niedriger CO2-Wert
Salt Lake City us-west3
São Paulo southamerica-east1 Blattsymbol Niedriger CO2-Wert
Santiago southamerica-west1
South Carolina us-east1
Toronto northamerica-northeast2
In der folgenden Tabelle sind die Regionen im asiatisch-pazifischen Raum aufgeführt, in denen Analytics Hub verfügbar ist.
Beschreibung der Region Name der Region Details
Delhi asia-south2
Hong Kong asia-east2
Jakarta asia-southeast2
Melbourne australia-southeast2
Mumbai asia-south1
Osaka asia-northeast2
Seoul asia-northeast3
Singapur asia-southeast1
Sydney australia-southeast1
Taiwan asia-east1
Tokio asia-northeast1
In der folgenden Tabelle sind die Regionen in Europa aufgeführt, in denen Analytics Hub verfügbar ist.
Beschreibung der Region Name der Region Details
Belgien europe-west1 Blattsymbol Niedriger CO2-Wert
Finnland europe-north1 Blattsymbol Niedriger CO2-Wert
Frankfurt europe-west3 Blattsymbol Niedriger CO2-Wert
London europe-west2 Blattsymbol Niedriger CO2-Wert
Niederlande europe-west4
Warschau europe-central2
Zürich europe-west6 Blattsymbol Niedriger CO2-Wert

Multiregionen

In der folgenden Tabelle sind die Multiregionen aufgeführt, in denen Analytics Hub verfügbar ist.
Beschreibung des multiregionalen Standorts Name des multiregionalen Standorts
Rechenzentren in Mitgliedsstaaten der Europäischen Union1 EU
Rechenzentren in den USA US

1 Daten in der Multiregion EU werden nicht in den Rechenzentren europe-west2 (London) oder europe-west6 (Zürich) gespeichert.

Omni-Regionen

In der folgenden Tabelle ist das Omni aufgeführt, in dem Analytics Hub verfügbar ist.
Beschreibung der Omni-Region Name der Omni-Region
AWS
AWS – US East (N. Virginia) aws-us-east-1
Azure
Azure – East US 2 azure-eastus2

Anwendungsbeispiel

In diesem Abschnitt wird ein Beispiel für die Verwendung von Analytics Hub gezeigt.

Angenommen, Sie sind ein Händler und Ihre Organisation hat Echtzeitdaten zur Nachfrageprognose in einem Google Cloud-Projekt mit dem Namen Prognose. Sie möchten diese Nachfrageprognosedaten für Hunderte von Anbietern in Ihrem Lieferkettensystem freigeben. So können Sie Ihre Daten über Analytics Hub für Anbieter freigeben:

Analytics Hub-Administratoren

Als Inhaber des Projekts Prognose müssen Sie zuerst die Analytics Hub API aktivieren und dann einem Nutzer, der den Datenpool im Projekt verwaltet, die Rolle Analytics Hub-Administrator zuweisen. Nutzer mit der Rolle "Analytics Hub-Administrator" werden als Analytics Hub-Administratoren bezeichnet.

Ein Analytics Hub-Administrator kann die folgenden Aufgaben ausführen:

  • Den Datenpool im Prognoseprojekt Ihrer Organisation erstellen, aktualisieren, löschen und freigeben.

  • Andere Analytics Hub-Administratoren verwalten.

  • Publisher verwalten, indem Mitarbeitern Ihrer Organisation die Rolle „Analytics Hub-Publisher“ zugewiesen wird. Wenn Sie möchten, dass bestimmte Mitarbeiter nur Einträge aktualisieren, löschen und freigeben, aber nicht erstellen können, gewähren Sie ihnen die Rolle "Administrator von Analytics Hub-Einträgen".

  • Abonnenten verwalten, indem die Rolle „Analytics Hub-Abonnent“ einer Google-Gruppe gewährt wird, die alle Anbieter enthält. Wenn bestimmte Anbieter nur Lesezugriff auf die verfügbaren Plattformen und Einträge haben sollen, können Sie ihnen die Rolle "Analytics Hub-Betrachter" zuweisen. Diese Anbieter können keine Einträge abonnieren.

Weitere Informationen finden Sie unter Datenpool verwalten.

Analytics Hub-Publisher

Publisher erstellen die folgenden Einträge für ihre Datasets im Projekt Prognose oder in einem anderen Projekt:

  • Eintrag A: Bedarfsprognose-Dataset 1
  • Eintrag B: Bedarfsprognose-Dataset 2
  • Eintrag C: Bedarfsprognose-Dataset 3

Als Datenanbieter können Sie die Nutzungsmesswerte für Ihr freigegebenes Dataset verfolgen. Die Nutzungsmesswerte enthalten folgende Details:

  • Jobs, die für Ihr freigegebenes Dataset ausgeführt werden.
  • Die Verbrauchsdetails Ihres freigegebenen Datasets nach Projekten und Organisationen der Abonnenten.
  • Die Anzahl der vom Job verarbeiteten Zeilen und Byte.

Weitere Informationen finden Sie unter Einträge verwalten.

Analytics Hub-Abonnenten

Abonnenten können Einträge durchsuchen, auf die sie in Datenpools Zugriff haben. Sie können diese Einträge auch abonnieren und diese Datasets ihren Projekten hinzufügen, indem sie ein verknüpftes Dataset erstellen. Anbieter können dann Abfragen für diese verknüpften Datasets ausführen und Ergebnisse in Echtzeit abrufen.

Weitere Informationen finden Sie unter Einträge aufrufen und abonnieren.

Preise

Für die Verwaltung von Datenpools oder Einträgen fallen keine zusätzlichen Kosten an. Analytics Hub-Publishern wird die Datenspeicherung in Rechnung gestellt, während Abonnenten basierend auf dem On-Demand- oder Kapazitätsbasiertes-Preismodell für Abfragen bezahlen, die für die freigegebenen Daten ausgeführt werden. Informationen zu den Preisen finden Sie unter BigQuery-Preise.

Kontingente

Informationen zu Analytics Hub-Kontingenten finden Sie unter Kontingente und Limits.

VPC Service Controls

Sie können die Regeln für ein- und ausgehenden Traffic festlegen, die Publishern und Abonnenten den Zugriff auf Daten von Projekten mit VPC Service Controls-Perimetern ermöglichen. Weitere Informationen finden Sie unter VPC Service Controls-Regeln für Analytics Hub.

Nächste Schritte