Föderierte Spanner-Abfragen
Als Datenanalyst können Sie Daten in Spanner mithilfe von föderierten Abfragen über BigQuery abfragen.
Mit der Föderation von BigQuery Spanner kann BigQuery Daten in Spanner in Echtzeit abfragen, ohne Daten kopieren oder verschieben zu müssen.
Hinweis
- Achten Sie darauf, dass Ihr BigQuery-Administrator eine Spanner-Verbindung erstellt und für Sie freigegeben hat. Weitere Informationen finden Sie unter Richtige Verbindung auswählen.
- Bitten Sie Ihren Administrator, Ihnen die Rolle „BigQuery Connection-Nutzer“ (
roles/bigquery.connectionUser
) Identity and Access Management (IAM) zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Abfragen einer Spanner-Instanz benötigen. Außerdem müssen Sie Ihren Administrator bitten, Ihnen eine der folgenden Berechtigungen zu gewähren:- Wenn Sie einen detaillierten Nutzer für die Zugriffssteuerung verwenden, benötigen Sie Zugriff auf eine Datenbankrolle mit der Berechtigung
SELECT
für alle Spanner-Schemaobjekte in Ihren Abfragen. - Wenn Sie kein fein abgestimmter Zugriffssteuerungsnutzer sind, benötigen Sie die IAM-Rolle „Cloud Spanner-Datenbank-Leser” (
roles/spanner.databaseReader
).
Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten. Informationen zur detaillierten Zugriffssteuerung finden Sie unter Detaillierte Zugriffssteuerung.
- Wenn Sie einen detaillierten Nutzer für die Zugriffssteuerung verwenden, benötigen Sie Zugriff auf eine Datenbankrolle mit der Berechtigung
Die richtige Verbindung auswählen
Als Nutzer der detaillierten Spanner-Zugriffssteuerung müssen Sie beim Ausführen einer föderierten Abfrage eine Spanner-Verbindung verwenden, die eine Datenbankrolle angibt. Anschließend verwenden alle Abfragen, die Sie mit dieser Verbindung ausführen, diese Datenbankrolle.
Wenn Sie eine Verbindung verwenden, die keine Datenbankrolle angibt, müssen Sie die IAM-Rollen haben, die unter Vorbereitung angegeben sind.
Spanner Data Boost
Data Boost ist ein vollständig verwaltetes, serverloses Feature, das unabhängige Rechenressourcen für unterstützte Spanner-Arbeitslasten bereitstellt. Mit Data Boost können Sie Analyseabfragen und Datenexporte ohne Auswirkungen auf vorhandene Arbeitslasten auf der bereitgestellten Spanner-Instanz ausführen. Mit Data Boost können Sie föderierte Abfragen mit unabhängiger Rechenkapazität ausführen, die von Ihren bereitgestellten Instanzen getrennt sind, um vorhandene Arbeitslasten in Spanner zu vermeiden. Data Boost ist am effektivsten, wenn Sie komplexe Ad-hoc-Abfragen ausführen oder wenn Sie große Datenmengen verarbeiten möchten, ohne die vorhandene Spanner-Arbeitslast zu beeinträchtigen. Das Ausführen von föderierten Abfragen mit Data Boost kann zu einem deutlich geringeren CPU-Verbrauch und in einigen Fällen auch zu einer geringeren Abfragelatenz führen.
Hinweise
Um die Berechtigung zu erhalten, die Sie für den Zugriff auf Data Boost benötigen, bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Cloud Spanner Database Admin (roles/spanner.databaseAdmin
) für die Spanner-Datenbank zu gewähren.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.
Diese vordefinierte Rolle enthält die Berechtigung spanner.databases.useDataBoost
, die für den Zugriff auf Data Boost erforderlich ist.
Sie können diese Berechtigung auch mit benutzerdefinierten Rollen oder anderen vordefinierten Rollen erhalten.
Data Boost aktivieren
Um Data Boost für Ihre föderierten Abfragen an Spanner zu aktivieren, müssen Sie zuerst eine Verbindung zu Spanner herstellen. Nachdem Sie Data Boost in der Verbindung aktiviert haben, fragen Sie Daten ab, um eine föderierte Abfrage an Spanner zu senden.
Daten abfragen
Verwenden Sie die Funktion EXTERNAL_QUERY
, um eine föderierte Abfrage aus einer GoogleSQL-Abfrage an Spanner zu senden.
Erstellen Sie Ihre Spanner-Abfrage je nach angegebenem Dialekt der Datenbank in GoogleSQL oder PostgreSQL.
Im folgenden Beispiel wird eine föderierte Abfrage an eine Spanner-Datenbank namens orders
gesendet und die Ergebnisse mit einer BigQuery-Tabelle namens mydataset.customers
verknüpft.
SELECT c.customer_id, c.name, rq.first_order_date FROM mydataset.customers AS c LEFT OUTER JOIN EXTERNAL_QUERY( 'my-project.us.example-db', '''SELECT customer_id, MIN(order_date) AS first_order_date FROM orders GROUP BY customer_id''') AS rq ON rq.customer_id = c.customer_id GROUP BY c.customer_id, c.name, rq.first_order_date;
Daten gleichzeitig lesen
Spanner kann bestimmte Abfragen in kleinere Teile oder Partitionen aufteilen und die Partitionen parallel abrufen. Weitere Informationen finden Sie unter Daten parallel lesen in der Spanner-Dokumentation.
Wenn Sie parallele Lesevorgänge in föderierten Abfragen aktivieren möchten, konfigurieren Sie diese Einstellung beim Erstellen der Verbindungsressource. Diese Option unterteilt die SQL-Abfrage in kleinere Partitionen und ruft jede Partition parallel ab. Diese Option ist jedoch auf Abfragen beschränkt, die eine der folgenden Bedingungen erfüllen:
Der erste Operator im Ausführungsplan ist der Operator Distributed Union.
Der Ausführungsplan enthält keinen Operator Distributed Union.
Andere Abfragen geben einen Fehler zurück. Informationen zum Abfrageausführungsplan für eine Spanner-Abfrage finden Sie unter So werden Abfragen von Spanner ausgeführt.
Priorität für die Abfrageausführung verwalten
Sie können einzelnen Abfragen Prioritäten (high
, medium
oder low
) zuweisen, indem Sie die Option query_execution_priority
wie unten gezeigt angeben:
SELECT * FROM EXTERNAL_QUERY( 'my-project.us.example-db', '''SELECT customer_id, MIN(order_date) AS first_order_date FROM orders GROUP BY customer_id''', '{"query_execution_priority":"high"}');
Die Standardpriorität ist medium
.
Abfragen mit der Priorität high
konkurrieren mit dem Transaktionstraffic.
Abfragen mit der Priorität low
werden auf Best-Effort-Basis ausgeführt und können durch das Laden im Hintergrund vorzeitig beendet werden, z. B. durch geplante Sicherungen.
Spanner-Tabellenschema ansehen
Mit der Funktion EXTERNAL_QUERY
können Sie Information_Schema-Ansichten abfragen, um auf Datenbankmetadaten zuzugreifen, z. B. um eine Liste aller Tabellen in der Datenbank oder ein Tabellenschema abzurufen. Im folgenden Beispiel werden Informationen zu den Spalten in der Tabelle MyTable
zurückgegeben:
Google SQL-Datenbank
SELECT * FROM EXTERNAL_QUERY( 'my-project.us.example-db', '''SELECT t.column_name, t.spanner_type, t.is_nullable FROM information_schema.columns AS t WHERE t.table_catalog = '' AND t.table_schema = '' AND t.table_name = 'MyTable' ORDER BY t.ordinal_position ''');
PostgreSQL-Datenbank
SELECT * from EXTERNAL_QUERY( 'my-project.us.postgresql.example-db', '''SELECT t.column_name, t.data_type, t.is_nullable FROM information_schema.columns AS t WHERE t.table_schema = 'public' and t.table_name='MyTable' ORDER BY t.ordinal_position ''');
Weitere Informationen finden Sie in den folgenden Referenzschemas für Informationen in der Spanner-Dokumentation:
Fehlerbehebung
Dieser Abschnitt hilft Ihnen beim Beheben von Problemen, die beim Senden einer föderierten Abfrage an Spanner auftreten können.
- Problem: Abfrage kann nicht partitioniert werden.
- Lösung: Wenn Sie die Verbindung so konfigurieren, dass Daten parallel gelesen werden, muss entweder der erste Operator im Abfrageausführungsplan eine verteilte Union sein oder Ihr Ausführungsplan muss haben keine Distributed Unions. Rufen Sie den Abfrageausführungsplan auf und schreiben Sie die Abfrage neu, um diesen Fehler zu beheben. Weitere Informationen finden Sie unter So werden Abfragen von Spanner ausgeführt.
- Problem: Frist überschritten.
- Lösung: Wählen Sie die Option zum parallelen Lesen von Daten aus und schreiben Sie die Abfrage so, dass sie als Root-Partition möglich ist. Weitere Informationen finden Sie unter So werden Abfragen von Spanner ausgeführt.