Einführung in die BigQuery-Verwaltung

Dieses Dokument bietet eine Einführung in BigQuery-Verwaltungsaufgaben und die BigQuery-Funktionen, die Ihnen dabei helfen, die Aufgaben zu erledigen.

BigQuery-Administratoren führen normalerweise die folgenden Aufgabentypen aus:

  • Verwalten von Ressourcen wie Projekte, Datasets und Tabellen.
  • Sichern von Ressourcen, damit der Zugriff auf die Hauptkonten beschränkt ist, die sie benötigen.
  • Verwalten von Arbeitslasten, z. B. Jobs, Abfragen und Rechenkapazität (Reservierungen).
  • Überwachen von Ressourcen, einschließlich Kontingenten, Jobs und Rechenauslastung.
  • Optimieren Sie Arbeitslasten, um die beste Leistung zu erzielen, während die Kosten im Blick behalten werden
  • Beheben Sie Fehlermeldungen, Abrechnungsprobleme und Kontingente

In diesem Dokument erhalten Sie einen Überblick über die Funktionen, die BigQuery für diese Aufgaben bietet.

Klicken Sie auf Tour starten, um die Features der BigQuery-Datenverwaltung direkt in der Google Cloud Console kennenzulernen.

Tour ansehen

Tools

BigQuery bietet mehrere Schnittstellen, die Sie für Verwaltungsaufgaben verwenden können. Häufig kann eine bestimmte Aufgabe mit mehreren Tools ausgeführt werden, sodass Sie das Tool auswählen können, das am besten für Sie geeignet ist. Sie können beispielsweise eine Tabelle mit dem Bereich Explorer in der Google Cloud Console, einem bq mk --table-Befehl oder einer CREATE TABLE-SQL-Anweisung erstellen.

  • Google Cloud Console Die Google Cloud Console bietet mehrere Seiten für die Verwaltung von BigQuery. Weitere Informationen finden Sie unter Google Cloud Console verwenden.
  • SQL-Anweisungen: Die BigQuery-Seite in der Google Cloud Console enthält einen Abfrageeditor, in dem Sie Verwaltungsaufgaben mit DDL- und DCL-Anweisungen ausführen können. Weitere Informationen finden Sie unter Datendefinitionssprache (DDL) und Datenkontrollsprache (DCL).

    Mit gespeicherten Prozeduren können Sie Verwaltungsaufgaben automatisieren, die SQL-Anweisungen verwenden. Weitere Informationen finden Sie unter Mit gespeicherten Prozeduren arbeiten.

  • bq Befehl. Mit dem bq-Befehlszeilentool können Sie viele Verwaltungsaufgaben mit bq-Befehlen ausführen. Mit dem bq-Befehlszeilentool können Sie Aufgaben ausführen, die in der Google Cloud Console nicht unterstützt werden. Außerdem können Sie damit Prototypfunktionen erstellen, bevor Sie sie in Abfragen oder API-Methoden codieren, oder wenn Sie lieber mit einer Befehlszeilenschnittstelle arbeiten. Weitere Informationen finden Sie unter bq-Befehlszeilentool verwenden.

Ressourcen verwalten

BigQuery-Ressourcen umfassen Organisationen, Ordner, Projekte, Datasets und Tabellen. In diesem Abschnitt wird beschrieben, wie Sie die Ressourcen Ihrer Organisation verwalten.

Informationen zur BigQuery-Ressourcenhierarchie finden Sie unter BigQuery-Ressourcen organisieren. Insbesondere können Sie eine Organisationsressource erstellen, mit der Sie einige Aufgaben ausführen können, z. B. Zugriffssteuerungen auf Organisationsebene festlegen.

Datasets verwalten

Datasets sind Container für Tabellen. Sie können Tabellen in einem Dataset erstellen und dann als Gruppe verwalten. Sie können beispielsweise die Standardablaufzeit für Tabellen eines Datasets konfigurieren, die für alle Tabellen im Dataset gilt, sofern Sie diese nicht überschreiben. Sie können eine Gruppe von Tabellen kopieren, indem Sie eine Kopie ihres Datasets erstellen. Außerdem können Sie den Zugriff auf Tabellen auf Dataset-Ebene steuern.

Weitere Informationen zur Dataset-Verwaltung finden Sie in den folgenden Dokumenten:

Tabellen verwalten

In BigQuery werden Daten in Tabellen gespeichert, wo sie abgefragt werden können. Sie können Tabellen erstellen, Daten in Tabellen aus verschiedenen Quellen und in verschiedenen Formaten laden, Tabellen basierend auf einer bestimmten Spalte oder nach Aufnahmezeit partitionieren, Clustertabellen aktualisieren, Tabellenattribute aktualisieren und Tabellendaten exportieren.

Weitere Informationen zur Tabellenverwaltung finden Sie in den folgenden Dokumenten:

Ressourcen mit Labels versehen

Mit Labels für Ihre Datasets, Tabellen und Ansichten können Sie Ihre BigQuery-Ressourcen besser organisieren. Labels sind Schlüssel/Wert-Paare, die Sie an eine Ressource anhängen können. Nachdem Sie die Ressourcen mit Labels versehen haben, können Sie basierend auf Labelwerten nach ihnen suchen. Mit Labels können Sie beispielsweise Datasets nach Abteilung gruppieren, indem Sie Labels wiedept:sales, dept:marketing, dept:analytics, usw. hinzufügen. Anschließend können Sie Ihre in Rechnung gestellten Kosten aufschlüsseln und sie mit den Labels nach Abteilung aufschlüsseln.

Weitere Informationen finden Sie unter Einführung in Labels.

Ressourcenmetadaten abrufen

Sie können Informationen zu Ihren BigQuery-Ressourcen abrufen, indem Sie die Tabelle INFORMATION_SCHEMA abfragen. BigQuery bietet für diese Art von Ressource eine Ansicht in dieser Tabelle. Die Ansicht enthält Metadaten für die Ressource. Die Ansicht INFORMATION_SCHEMA.TABLES enthält beispielsweise Tabellenmetadaten.

BigQuery bietet eine INFORMATION_SCHEMA-Ansicht für jeden der folgenden Ressourcentypen:

Im Folgenden finden Sie einige Beispiele für Informationen, die Sie durch Abfragen von INFORMATION_SCHEMA-Ansichten abrufen können:

  • Sehen, wann eine Tabelle erstellt wurde.
  • Namen und Datentypen jeder Spalte in einer Tabelle abrufen.
  • Alle Jobs suchen, die derzeit in einem Projekt ausgeführt werden.
  • Eine Liste der Tabellen-Snapshots abrufen, die aus einer Basistabelle erstellt wurden.
  • Für ein Dataset, eine Tabelle, eine Ansicht oder eine Routine erhalten Sie die DDL-Anweisung, mit der die Ressource erstellt werden kann.
  • Ruft die Optionen ab, die zum Erstellen einer Tabelle verwendet wurden (z. B. Tabellenablauf).
  • Partitionierungs- und Clustering-Spalten für eine Tabelle suchen.
  • Die aktuell zugewiesene Reservierung und die Slotkapazität eines Projekts abrufen.

Weitere Informationen finden Sie unter Einführung in BigQuery INFORMATION_SCHEMA.

Daten kopieren

Möglicherweise möchten Sie Kopien Ihrer Daten aus verschiedenen Gründen erstellen, z. B. zum Schutz vor menschlichen Fehlern oder um Daten für einen späteren Zugriff aufzubewahren. BigQuery bietet mehrere Optionen zum Kopieren der Daten einer Tabelle von einem bestimmten Zeitpunkt.

  • Zeitreise. Sie müssen möglicherweise auf den Status einer Tabelle zugreifen, wie sie sich in der letzten Woche befand. Zum Beispiel, wenn die Daten aufgrund eines menschlichen Fehlers beschädigt wurden. BigQuery speichert Verlaufsdaten für Ihre Tabellen sieben Tage lang. Sie können mithilfe der Zeitreisenfunktion auf die neuesten Verlaufsdaten einer Tabelle zugreifen.

    Weitere Informationen finden Sie unter Mit Zeitreisen auf Verlaufsdaten zugreifen.

  • Tabellen-Snapshots. Wenn Sie auf den Status einer Tabelle vor einer Woche zugreifen möchten, sollten Sie regelmäßig Tabellen-Snapshots erstellen. Tabellen-Snapshots sind einfache schreibgeschützte Kopien, mit denen Sie den Status Ihrer Tabellen unbegrenzt beibehalten können. Mit Tabellen-Snapshots können Sie beispielsweise die aktuellen Daten einer Tabelle mit den Daten von Anfang des Jahres vergleichen, was mit einer Zeitreise nicht möglich ist. Ihnen werden nur Kosten für die Speicherung der Daten berechnet, die sich zwischen der Basistabelle und dem Tabellen-Snapshot unterscheiden.

    Weitere Informationen finden Sie unter Einführung in Tabellen-Snapshots.

  • Tabellenklone (Vorschau). Wenn Sie eine einfache, änderbare Kopie einer Tabelle erstellen möchten, können Sie Tabellenklone verwenden. Sie zahlen nur für die Speicherung der Daten, die sich zwischen der Basistabelle und dem Tabellenklon unterscheiden. Sie können beispielsweise Tabellenklone in einer Testumgebung erstellen, um mit Kopien von Produktionsdaten zu experimentieren, ohne die Produktionsdaten zu beeinträchtigen. Dabei müssen Sie nicht für die Speicherung vollständiger Kopien der Tabellen bezahlen.

    Weitere Informationen finden Sie unter Einführung in Tabellen-Klone.

Sichere Ressourcen

Die BigQuery-Sicherheit basiert auf Google Cloud Identity and Access Management. Mit BigQuery können Sie den Zugriff auf Ressourcen auf vielen Ebenen steuern, einschließlich des Zugriffs auf Organisationen, Ordner, Projekte, Datasets, Tabellen, Tabellenspalten und Tabellenzeilen.

Informationen zum Steuern des Zugriffs auf Ihre BigQuery-Ressourcen finden Sie unter Datensicherheit und Data Governance.

Arbeitslasten verwalten

BigQuery führt viele Aufgaben im Namen Ihrer Nutzer aus, einschließlich der Aufnahme, Abfrage und Export von Daten. Jede Aufgabe wird von einem BigQuery-Job ausgeführt. In diesem Abschnitt wird beschrieben, wie Sie die Jobs Ihrer Organisation überwachen und verwalten können.

Jobs verwalten

Jobs sind Aktionen, die BigQuery für einen Nutzer ausführt, um Daten zu laden, zu exportieren, abzufragen oder zu kopieren. Wenn ein Nutzer eine dieser Aufgaben über die Google Cloud Console, das bq-Befehlszeilentool, eine SQL-Anweisung oder einen API-Aufruf initiiert, erstellt BigQuery automatisch einen Job, um die Aufgabe auszuführen.

Als BigQuery-Administrator können Sie die Jobs Ihrer Organisation überwachen, verwalten und debuggen, um sicherzustellen, dass sie reibungslos ausgeführt werden.

Weitere Informationen finden Sie unter Jobs – Übersicht.

Reservierungen verwalten

Bei der Ausführung von Abfragen in BigQuery werden Recheneinheiten, die als Slots bezeichnet werden, verwendet. BigQuery berechnet je nach Größe und Komplexität der Abfrage, wie viele Slots zum Ausführen der einzelnen Abfragen erforderlich sind.

BigQuery bietet drei Preismodelle für die Abrechnung der Slots, die Ihre Abfragen ausführen:

  • On-Demand-Abrechnung. Ihre Abfragen verwenden einen gemeinsamen Slot-Pool. Ihnen wird die Anzahl der Bytes in Rechnung gestellt, die Ihre Abfragen verarbeiten.
  • Pauschalpreisabrechnung. Sie erwerben eine dedizierte Slotkapazität zum Ausführen Ihrer Abfragen. Ihnen wird ein Festpreis für die dedizierten Slots in Rechnung gestellt.
  • Abrechnung für Versionen Sie weisen einer Version eine Reservierung oder Kapazitätszusicherung zu. Jede hat eine eigene Funktionsgruppe und einen Preispunkt, um die beste Arbeitsumgebung für Sie zu bieten.

Diese Preismodelle gelten pro Projekt. Sie können also einige Projekte mit On-Demand-Abrechnung und einige Projekte mit Pauschalpreisabrechnung verwenden.

Bei der On-Demand-Abrechnung wird Ihnen die Anzahl der verarbeiteten Byte pro Abfrage in Rechnung gestellt, nachdem Ihre monatliche Nutzung der kostenlosen Nutzung verbraucht wurde. Der Durchsatz ist auf ein vordefiniertes Slotkontingent beschränkt, das von den Abfragen in einem Projekt gemeinsam genutzt wird.

Bei der Pauschalpreisabrechnung erwerben Sie Slots für Ihre Organisation, die Ihnen eine dedizierte Abfrageverarbeitungskapazität zur Verfügung stellen. Anschließend weisen Sie den einzelnen Projekten in Ihrer Organisation Pools dieser dedizierten Slots zu. Die Abfragen, die in einem Projekt ausgeführt werden, teilen die dedizierten Slots des Projekts. Die Kosten richten sich nach der Anzahl der Slots, die Sie erwerben, und nicht nach der Anzahl der verarbeiteten Byte.

Mit der BigQuery-Edition können Sie Slots für Ihre Organisation über Autoscaling-Reservierungen und optionale, aber kostengünstigere Kapazitätszusicherungen zuweisen. Slots für jede Version haben einen eigenen Preispunkt und bieten eigene Funktionen. Weitere Informationen zu BigQuery-Editionen und den zugehörigen Funktionen finden Sie unter Einführung in BigQuery-Versionen.

Weitere Informationen zum Verwalten der Rechenkapazität für die Verarbeitung Ihrer Abfragen finden Sie in den folgenden Dokumenten:

Ressourcen beobachten

Google Cloud bietet die Möglichkeit, Ihre Ressourcen, einschließlich BigQuery-Ressourcen, zu überwachen und zu prüfen. In diesem Abschnitt werden die Monitoring- und Prüffunktionen von Google Cloud beschrieben, die für BigQuery gelten.

Weitere Informationen finden Sie unter Einführung in BigQuery-Monitoring.

Das Cloud Monitoring-Dashboard

Cloud Monitoring bietet ein Dashboard zum Monitoring von BigQuery. In diesem Dashboard finden Sie Informationen zu BigQuery-Vorfällen, Datasets, Tabellen, Projekte, Abfragezeiten und Slot-Auslastung.

Weitere Informationen finden Sie unter Monitoring-Dashboard aufrufen.

Verwaltungsdiagramme und Benachrichtigungen

Mit Cloud Monitoring können Sie benutzerdefinierte Diagramme basierend auf den von Ihnen angegebenen Ressourcen, Messwerten und Zusammenfassungen erstellen.

Weitere Informationen finden Sie unter Dashboards und Diagramme.

Sie können auch Benachrichtigungsrichtlinien erstellen, die Sie benachrichtigen, wenn die konfigurierte Benachrichtigung ausgelöst wird. Sie können beispielsweise eine Benachrichtigung erstellen, die eine E-Mail an eine angegebene E-Mail-Adresse sendet, wenn die Ausführungszeit einer Abfrage ein bestimmtes Limit überschreitet.

Weitere Informationen finden Sie unter Benachrichtigung erstellen.

Reservierungen überwachen

Sie können die Slot-Nutzung in der Google Cloud Console auf der Seite Kapazitätsverwaltung überwachen. Sie können Ihre Kapazitätszusicherungen anzeigen und sehen, wo Ihre Slotreservierungen zugewiesen wurden. Sie können auch den Slot Estimator (Vorschau) verwenden, um die Kapazitätsanforderungen Ihrer Organisation basierend auf den bisherigen Leistungsmesswerten zu schätzen.

Weitere Informationen finden Sie unter BigQuery Reservations überwachen.

Kontingente

Google Cloud legt Beschränkungen für die Nutzung von Ressourcen fest, einschließlich BigQuery-Ressourcen, um eine faire Nutzung gemeinsam genutzter Ressourcen zu gewährleisten und Sie vor Runtime-Kosten zu schützen. In der Cloud Console können Sie Ihre BigQuery-Ressourcen mit Kontingenten aufrufen und bei Bedarf ein höheres Kontingent anfordern.

Weitere Informationen finden Sie unter BigQuery-Kontingente und Limits.

Audit-Logs

Cloud-Audit-Logs verwalten eine Aufzeichnung von Google Cloud-Ereignissen, einschließlich BigQuery-Ereignissen. Im Log-Explorer können Sie die Logs zu Ereignissen abfragen, die sich auf BigQuery-Jobs, -Datasets, -Übertragungen und mehr beziehen. Im Logs-Dashboard werden Informationen zu aktuellen Fehlern angezeigt. Sie können logbasierte Messwerte verwenden, um die Log-Einträge zu zählen, die einem bestimmten Filter entsprechen.

Weitere Informationen finden Sie in der Google Cloud Logging-Dokumentation.

Arbeitslasten optimieren

Sie können die BigQuery-Konfiguration optimieren, um die Kosten für die Speicher- und Abfrageverarbeitung zu steuern.

Anleitung zur Zuverlässigkeit

Dieser Leitfaden bietet ein Verständnis der Zuverlässigkeit von BigQuery. In jedem Dokument wird ein kritisches Attribut für Zuverlässigkeit mit einem Anwendungsfall der BigQuery-Implementierung untersucht. Zu den Zuverlässigkeitsthemen gehören:

  • Übersicht über Zuverlässigkeitsfeatures – Einblick in Verfügbarkeit, Langlebigkeit, Datenkonsistenz, Konsistenz von Leistung und Datenwiederherstellung in BigQuery sowie eine Erläuterung der Fehlerbehandlung.
  • Daten importieren: Ausführliche Informationen darüber, wie diese Zuverlässigkeit für den Import von Daten in das verwaltete Speichersystem in BigQuery gilt.
  • Daten abfragen: Informationen zum zuverlässigen Abfragen von Daten in Ihrer BigQuery-Umgebung.
  • Daten lesen: Wie sich die Zuverlässigkeit auf das Lesen von Daten aus dem verwalteten BigQuery-Speichersystem bezieht.
  • Notfallwiederherstellung: spezifische Fehler vom Verlust einer einzelnen Maschine bis hin zu einem schwerwiegenden Verlust einer Region.

Fehlerbehebung

Zusätzlich zu den in diesem Dokument beschriebenen Funktionen zum Monitoring und Verwalten des BigQuery-Systems Ihrer Organisation stehen die folgenden Ressourcen zur Fehlerbehebung zur Verfügung, die möglicherweise auftreten:

Weitere Informationen finden Sie unter Support erhalten.

Nächste Schritte