Einführung in die BigQuery-Verwaltung

Dieses Dokument bietet eine Einführung in BigQuery-Verwaltungsaufgaben und die BigQuery-Funktionen, die Ihnen dabei helfen, die Aufgaben zu erledigen.

BigQuery-Administratoren führen normalerweise die folgenden Aufgabentypen aus:

  • Verwalten von Ressourcen wie Projekte, Datasets und Tabellen.
  • Sichern von Ressourcen, damit der Zugriff auf die Hauptkonten beschränkt ist, die sie benötigen.
  • Verwalten von Arbeitslasten, z. B. Jobs, Abfragen und Rechenkapazität (Reservierungen).
  • Überwachen von Ressourcen, einschließlich Kontingenten, Jobs und Rechenauslastung.
  • Optimieren Sie Arbeitslasten, um die beste Leistung zu erzielen, während die Kosten im Blick behalten werden
  • Beheben Sie Fehlermeldungen, Abrechnungsprobleme und Kontingente

In diesem Dokument erhalten Sie einen Überblick über die Funktionen, die BigQuery für diese Aufgaben bietet.

Klicken Sie auf Demo ansehen, um die BigQuery-Datenverwaltungsfunktionen direkt in der Google Cloud -Konsole kennenzulernen.

Tour ansehen

Tools

BigQuery bietet mehrere Schnittstellen, die Sie für Verwaltungsaufgaben verwenden können. Häufig kann eine bestimmte Aufgabe mit mehreren Tools ausgeführt werden, sodass Sie das Tool auswählen können, das am besten für Sie geeignet ist. Sie können beispielsweise eine Tabelle mit dem Bereich Explorer in derGoogle Cloud -Konsole, einem bq mk --table-Befehl oder einer CREATE TABLE-SQL-Anweisung erstellen.

  • Google Cloud console. Die Google Cloud Console bietet mehrere Seiten für die Verwaltung von BigQuery. Weitere Informationen finden Sie unter Google Cloud -Console verwenden.
  • SQL-Anweisungen: Die BigQuery-Seite in derGoogle Cloud Console enthält einen Abfrageeditor, in dem Sie Verwaltungsaufgaben mit DDL- und DCL-Anweisungen ausführen können. Weitere Informationen finden Sie unter Datendefinitionssprache (DDL) und Datenkontrollsprache (DCL).

    Mit gespeicherten Prozeduren können Sie Verwaltungsaufgaben automatisieren, die SQL-Anweisungen verwenden. Weitere Informationen finden Sie unter Mit gespeicherten Prozeduren arbeiten.

  • bq Befehl. Mit dem bq-Befehlszeilentool können Sie viele Verwaltungsaufgaben mit bq-Befehlen ausführen. Mit dem bq-Befehlszeilentool können Sie Aufgaben ausführen, die in der Google Cloud -Console nicht unterstützt werden. Außerdem können Sie damit Prototypfunktionen erstellen, bevor Sie sie in Abfragen oder API-Methoden codieren, oder wenn Sie lieber mit einer Befehlszeilenschnittstelle arbeiten. Weitere Informationen finden Sie unter bq-Befehlszeilentool verwenden.

Ressourcen verwalten

BigQuery-Ressourcen umfassen Organisationen, Ordner, Projekte, Datasets und Tabellen. In diesem Abschnitt wird beschrieben, wie Sie die Ressourcen Ihrer Organisation verwalten.

Informationen zur BigQuery-Ressourcenhierarchie finden Sie unter BigQuery-Ressourcen organisieren. Insbesondere können Sie eine Organisationsressource erstellen, mit der Sie einige Aufgaben ausführen können, z. B. Zugriffssteuerungen auf Organisationsebene festlegen.

Datasets verwalten

Datasets sind Container für Tabellen. Sie können Tabellen in einem Dataset erstellen und dann als Gruppe verwalten. Sie können beispielsweise die Standardablaufzeit für Tabellen eines Datasets konfigurieren, die für alle Tabellen im Dataset gilt, sofern Sie diese nicht überschreiben. Sie können eine Gruppe von Tabellen kopieren, indem Sie eine Kopie ihres Datasets erstellen. Außerdem können Sie den Zugriff auf Tabellen auf Dataset-Ebene steuern.

Weitere Informationen zur Dataset-Verwaltung finden Sie in den folgenden Dokumenten:

Tabellen verwalten

In BigQuery werden Daten in Tabellen gespeichert, wo sie abgefragt werden können. Sie können Tabellen erstellen, Daten in Tabellen aus verschiedenen Quellen und in verschiedenen Formaten laden, Tabellen basierend auf einer bestimmten Spalte oder nach Aufnahmezeit partitionieren, Clustertabellen aktualisieren, Tabellenattribute aktualisieren und Tabellendaten exportieren.

Weitere Informationen zur Tabellenverwaltung finden Sie in den folgenden Dokumenten:

Ressourcen mit Labels versehen

Mit Labels für Ihre Datasets, Tabellen und Ansichten können Sie Ihre BigQuery-Ressourcen besser organisieren. Labels sind Schlüssel/Wert-Paare, die Sie an eine Ressource anhängen können. Nachdem Sie die Ressourcen mit Labels versehen haben, können Sie basierend auf Labelwerten nach ihnen suchen. Mit Labels können Sie beispielsweise Datasets nach Abteilung gruppieren, indem Sie Labels wiedept:sales, dept:marketing oder dept:analytics hinzufügen. Sie können die in Rechnung gestellten Kosten dann nach Labels nach Abteilung aufschlüsseln.

Weitere Informationen finden Sie unter Einführung in Labels.

Ressourceninformationen abrufen

Sie können Informationen zu Ihren BigQuery-Ressourcen abrufen, indem Sie die Ansicht INFORMATION_SCHEMA abfragen. BigQuery bietet Ansichten für jeden Ressourcentyp. Die Ansicht INFORMATION_SCHEMA.TABLES enthält beispielsweise Informationen zu Ihren Tabellen.

Im Folgenden finden Sie einige Beispiele für Informationen, die Sie durch Abfragen von INFORMATION_SCHEMA-Ansichten abrufen können:

  • Sehen, wann eine Tabelle erstellt wurde.
  • Namen und Datentypen jeder Spalte in einer Tabelle abrufen.
  • Alle Jobs suchen, die in einem Projekt ausgeführt werden.
  • Eine Liste der Tabellen-Snapshots abrufen, die aus einer Basistabelle erstellt wurden.
  • Für ein Dataset, eine Tabelle, eine Ansicht oder eine Routine erhalten Sie die DDL-Anweisung, mit der die Ressource erstellt werden kann.
  • Ruft die Optionen ab, die zum Erstellen einer Tabelle verwendet wurden (z. B. Tabellenablauf).
  • Partitionierungs- und Clustering-Spalten für eine Tabelle suchen.
  • Die aktuell zugewiesene Reservierung und die Slotkapazität eines Projekts abrufen.

Weitere Informationen finden Sie unter Einführung in BigQuery INFORMATION_SCHEMA.

Daten kopieren

Möglicherweise möchten Sie Kopien Ihrer Daten aus verschiedenen Gründen erstellen, z. B. zum Schutz vor menschlichen Fehlern oder um Daten für einen späteren Zugriff aufzubewahren. BigQuery bietet mehrere Optionen zum Kopieren der Daten einer Tabelle von einem bestimmten Zeitpunkt.

  • Zeitreise. Sie müssen möglicherweise auf den Status einer Tabelle zugreifen, wie sie sich in der letzten Woche befand. Zum Beispiel, wenn die Daten aufgrund eines menschlichen Fehlers beschädigt wurden. BigQuery speichert Verlaufsdaten für Ihre Tabellen sieben Tage lang. Sie können mithilfe der Zeitreisenfunktion auf die neuesten Verlaufsdaten einer Tabelle zugreifen.

    Weitere Informationen finden Sie unter Mit Zeitreisen auf Verlaufsdaten zugreifen.

  • Tabellen-Snapshots. Wenn Sie auf den Status einer Tabelle vor einer Woche zugreifen möchten, sollten Sie regelmäßig Tabellen-Snapshots erstellen. Tabellen-Snapshots sind einfache schreibgeschützte Kopien, mit denen Sie den Status Ihrer Tabellen unbegrenzt beibehalten können. Mit Tabellen-Snapshots können Sie beispielsweise die aktuellen Daten einer Tabelle mit den Daten von Anfang des Jahres vergleichen, was mit einer Zeitreise nicht möglich ist. Ihnen werden nur Kosten für die Speicherung der Daten berechnet, die sich zwischen der Basistabelle und dem Tabellen-Snapshot unterscheiden.

    Weitere Informationen finden Sie unter Einführung in Tabellen-Snapshots.

  • Tabellenklone. Wenn Sie eine einfache, schreibbare Kopie einer Tabelle erstellen möchten, können Sie Tabellenklone verwenden. Sie zahlen nur für die Speicherung der Daten, die sich zwischen einer Basistabelle und ihrem Tabellenklon unterscheiden. Sie können beispielsweise Tabellenklone in einer Testumgebung erstellen, um mit Kopien von Produktionsdaten zu experimentieren, ohne die Produktionsdaten zu beeinträchtigen und ohne für das Speichern vollständiger Kopien der Tabellen bezahlen zu müssen.

    Weitere Informationen finden Sie unter Einführung in Tabellen-Klone.

Datenherkunft verfolgen

Die Datenherkunft ist ein Dataplex-Feature, mit dem Sie verfolgen können, wie Daten sich durch Ihre Systeme bewegen: woher die Daten stammen, wohin sie übertragen werden und welche Transformationen auf sie angewendet werden. Weitere Informationen dazu, wie Sie mit der Datenherkunft die Datenverschiebung in Ihrem Projekt verfolgen können, finden Sie unter Informationen zur Herkunft von Daten in Dataplex.

Sichere Ressourcen

Die BigQuery-Sicherheit basiert auf Google Cloud Identity and Access Management. Mit BigQuery können Sie den Zugriff auf Ressourcen auf vielen Ebenen steuern, einschließlich des Zugriffs auf Organisationen, Ordner, Projekte, Datasets, Tabellen, Tabellenspalten und Tabellenzeilen.

Informationen zum Steuern des Zugriffs auf Ihre BigQuery-Ressourcen finden Sie unter Datensicherheit und Data Governance.

Arbeitslasten verwalten

BigQuery führt viele Aufgaben im Namen Ihrer Nutzer aus, einschließlich der Aufnahme, Abfrage und Export von Daten. Jede Aufgabe wird von einem BigQuery-Job ausgeführt. In diesem Abschnitt wird beschrieben, wie Sie die Jobs Ihrer Organisation überwachen und verwalten können.

Jobs verwalten

Jobs sind Aktionen, die BigQuery für einen Nutzer ausführt, um Daten zu laden, zu exportieren, abzufragen oder zu kopieren. Wenn ein Nutzer eine dieser Aufgaben über die Google Cloud Console, das bq-Befehlszeilentool, eine SQL-Anweisung oder einen API-Aufruf initiiert, erstellt BigQuery automatisch einen Job, um die Aufgabe auszuführen.

Als BigQuery-Administrator können Sie die Jobs Ihrer Organisation überwachen, verwalten und debuggen, um sicherzustellen, dass sie reibungslos ausgeführt werden.

Weitere Informationen finden Sie unter Jobs – Übersicht.

Reservierungen verwalten

Bei der Ausführung von Abfragen in BigQuery werden Recheneinheiten, die als Slots bezeichnet werden, verwendet. BigQuery berechnet je nach Größe und Komplexität der Abfrage, wie viele Slots zum Ausführen der einzelnen Abfragen erforderlich sind.

BigQuery bietet zwei Preismodelle für die Abrechnung der Slots, die Ihre Abfragen ausführen:

  • On-Demand-Abrechnung. Ihre Abfragen verwenden einen gemeinsamen Slot-Pool. Ihnen wird die Anzahl der Bytes in Rechnung gestellt, die Ihre Abfragen verarbeiten.
  • Kapazitätsbasierte Abrechnung: Sie weisen einer Version eine Reservierung oder Kapazitätszusicherung zu. Jede hat eine eigene Funktionsgruppe und einen Preispunkt, um die beste Arbeitsumgebung für Sie zu bieten.

Diese Preismodelle gelten pro Projekt. Sie können also einige Projekte mit On-Demand-Abrechnung und einige Projekte mit kapazitätsbasierter Abrechnung verwenden.

Bei der On-Demand-Abrechnung wird Ihnen die Anzahl der verarbeiteten Byte pro Abfrage in Rechnung gestellt, nachdem Ihre monatliche Nutzung der kostenlosen Nutzung verbraucht wurde. Der Durchsatz ist auf ein vordefiniertes Slotkontingent beschränkt, das von den Abfragen in einem Projekt gemeinsam genutzt wird.

Mit der BigQuery-Edition können Sie Slots für Ihre Organisation über Autoscaling-Reservierungen und optionale, aber kostengünstigere Kapazitätszusicherungen zuweisen. Slots für jede Version haben einen eigenen Preispunkt und bieten eigene Funktionen. Weitere Informationen zu BigQuery-Versionen und den zugehörigen Funktionen finden Sie unter Einführung in BigQuery-Versionen.

Weitere Informationen zum Verwalten der Rechenkapazität für die Verarbeitung Ihrer Abfragen finden Sie in den folgenden Dokumenten:

  • Informationen zu Slots und den Vor- und Nachteilen der On-Demand-Abrechnung und der kapazitätsbasierten Abrechnung finden Sie unter Einführung in Reservierungen.

  • Informationen zu den verschiedenen Optionen für die kapazitätsbasierte Abrechnung (monatliche oder jährliche Zusicherungen) finden Sie unter Zusicherungen.

  • Informationen zum Erstellen von Pools mit kapazitätsbasierten Slots, die als Slot-Reservierungen bezeichnet werden, finden Sie unter Mit Slot-Reservierungen arbeiten.

  • Informationen zum Zuweisen von Slot-Reservierungen zu bestimmten Projekten finden Sie unter Mit Reservierungszuweisungen arbeiten.

  • Informationen zum Schätzen der richtigen Anzahl von Slots, die Ihren Arbeitslasten zugewiesen werden können, finden Sie unter Anforderungen an die Slotkapazität schätzen.

Ressourcen beobachten

Google Cloud bietet die Möglichkeit, Ihre Ressourcen, einschließlich BigQuery-Ressourcen, zu überwachen und zu prüfen. In diesem Abschnitt werden die Monitoring- und Prüffunktionen vonGoogle Cloud beschrieben, die für BigQuery gelten.

Weitere Informationen finden Sie unter Einführung in BigQuery-Monitoring.

Das Cloud Monitoring-Dashboard

Cloud Monitoring bietet ein Dashboard zum Monitoring von BigQuery. In diesem Dashboard finden Sie Informationen zu BigQuery-Vorfällen, Datasets, Tabellen, Projekte, Abfragezeiten und Slot-Auslastung.

Weitere Informationen finden Sie unter Monitoring-Dashboard aufrufen.

Verwaltungsdiagramme und Benachrichtigungen

Mit Cloud Monitoring können Sie benutzerdefinierte Diagramme basierend auf den von Ihnen angegebenen Ressourcen, Messwerten und Zusammenfassungen erstellen.

Weitere Informationen finden Sie unter Dashboards und Diagramme.

Sie können auch Benachrichtigungsrichtlinien erstellen, die Sie benachrichtigen, wenn die konfigurierte Benachrichtigung ausgelöst wird. Sie können beispielsweise eine Benachrichtigung erstellen, die eine E-Mail an eine angegebene E-Mail-Adresse sendet, wenn die Ausführungszeit einer Abfrage ein bestimmtes Limit überschreitet.

Weitere Informationen finden Sie unter Benachrichtigung erstellen.

Reservierungen überwachen

Sie können die Slot-Nutzung in derGoogle Cloud Console auf der Seite Kapazitätsverwaltung überwachen. Sie können Ihre Kapazitätszusicherungen anzeigen und sehen, wo Ihre Slotreservierungen zugewiesen wurden. Sie können auch den Slot Estimator (Vorabversion) verwenden, um die Kapazitätsanforderungen Ihrer Organisation basierend auf den bisherigen Leistungsmesswerten zu schätzen.

Weitere Informationen finden Sie unter BigQuery Reservations überwachen.

Kontingente

Google Cloud legt Limits für die Nutzung von Ressourcen fest, einschließlich BigQuery-Ressourcen, um eine faire Nutzung gemeinsam genutzter Ressourcen zu gewährleisten und Sie vor unerwarteten Kosten zu schützen. In der Google Cloud -Console können Sie Ihre BigQuery-Ressourcen mit Kontingenten aufrufen und bei Bedarf ein höheres Kontingent anfordern.

Weitere Informationen finden Sie unter BigQuery-Kontingente und Limits.

Audit-Logs

Cloud-Audit-Logs verwalten eine Aufzeichnung von Google Cloud -Ereignissen, einschließlich BigQuery-Ereignissen. Im Log-Explorer können Sie die Logs zu Ereignissen abfragen, die sich auf BigQuery-Jobs, -Datasets, -Übertragungen und mehr beziehen. Im Logs-Dashboard werden Informationen zu aktuellen Fehlern angezeigt. Sie können logbasierte Messwerte verwenden, um die Log-Einträge zu zählen, die einem bestimmten Filter entsprechen.

Weitere Informationen finden Sie in der Google Cloud -Dokumentation zum Logging.

Arbeitslasten optimieren

Sie können die BigQuery-Konfiguration optimieren, um die Kosten für die Speicher- und Abfrageverarbeitung zu steuern.

Leitfaden zur Zuverlässigkeit

Dieses Dokument bietet ein Verständnis der Zuverlässigkeit von BigQuery, einschließlich Informationen zu Verfügbarkeit, Langlebigkeit, Datenkonsistenz, Konsistenz von Leistung und Datenwiederherstellung in BigQuery sowie eine Erläuterung der Fehlerbehandlung. Weitere Informationen zu Zuverlässigkeit und Notfallwiederherstellung finden Sie unter Zuverlässigkeit.

Fehlerbehebung

Zusätzlich zu den in diesem Dokument beschriebenen Funktionen zum Monitoring und Verwalten des BigQuery-Systems Ihrer Organisation stehen die folgenden Ressourcen zur Fehlerbehebung zur Verfügung, die möglicherweise auftreten:

Weitere Informationen finden Sie unter Support erhalten.

Nächste Schritte