Diese Seite wurde von der Cloud Translation API übersetzt.

Bigtable

Bigtable ist eine dünnbesetzte Tabelle, die auf Milliarden von Zeilen und Tausende von Spalten skaliert werden kann. Dadurch können Datenmengen im Terabyte- oder sogar Petabytebereich gespeichert werden. Ein einzelner Wert in jeder Zeile ist indexiert. Dieser Wert wird als Zeilenschlüssel bezeichnet. Bigtable ist ideal für die Speicherung großer einfach verschlüsselter Datenmengen bei niedriger Latenz. Cloud Bigtable unterstützt einen hohen Durchsatz an Lese- und Schreibvorgängen bei kleiner Latenz und ist die ideale Datenquelle für MapReduce-Vorgänge.

Anwendungen können über mehrere Clientbibliotheken, darunter eine unterstützte Erweiterung der Apache HBase-Bibliothek für Java, auf Bigtable zugreifen. Daher fügt es sich in das bestehende Apache-System der Open-Source-Software für Big Data ein.

Die leistungsstarken Backend-Server von Bigtable bieten einige entscheidende Vorteile gegenüber einer selbstverwalteten HBase-Installation:

Unglaublich hohe Skalierbarkeit. Bigtable skaliert direkt proportional zur Anzahl der Maschinen in Ihrem Cluster. Eine selbstverwaltete HBase-Installation hat einen Engpass im Design, der die Leistung beschränkt, nachdem ein bestimmter Schwellenwert erreicht ist. Bigtable hat diesen Engpass nicht. Daher können Sie den Cluster so skalieren, dass er mehr Lese- und Schreibvorgänge verarbeiten kann.
Einfache Verwaltung. Bigtable verarbeitet Aktualisierungen und Neustarts transparent und sorgt automatisch für die Langlebigkeit der Daten. Fügen Sie zum Replizieren Ihrer Daten der Instanz einfach einen zweiten Cluster hinzu. Die Replikation wird dann automatisch gestartet. Sie müssen keine Replikate oder Regionen mehr verwalten. Entwerfen Sie einfach die Tabellenschemas und Bigtable erledigt den Rest für Sie.
Größenänderung des Clusters ohne Ausfallzeiten. Sie können die Größe eines Bigtable-Clusters für einige Stunden erhöhen, um eine große Auslastung zu bewältigen, und dann die Größe des Clusters wieder reduzieren – ohne Ausfallzeiten. Nach der Änderung der Clustergröße dauert es unter Last meist nur wenige Minuten, bis Bigtable die Leistung auf alle Knoten im Cluster verteilt.
Autoscaling: Sie können Bigtable so konfigurieren, dass die CPU-Kapazität des Clusters kontinuierlich überwacht und die Anzahl der Knoten in einem Cluster bei Bedarf automatisch angepasst wird.
Mehrstufiger Speicher (Vorschau) Sie können Daten, auf die selten zugegriffen wird, in einer separaten, kostengünstigeren Speicherstufe speichern. Mit abgestuftem Speicher können Sie die Speicherebene auswählen, die Ihren Anforderungen an den Bigtable-Datenzugriff am besten entspricht.

Einsatzmöglichkeit

Bigtable eignet sich ideal für Anwendungen, die einen hohen Durchsatz und eine hohe Skalierbarkeit für Schlüssel/Wert-Paar-Daten erfordern, bei denen in der Regel kein Wert größer als 10 MB ist. Bigtable überzeugt außerdem als Speicher-Engine für Batch-MapReduce-Vorgänge, die Verarbeitung und Auswertung von Streams sowie Anwendungen im Bereich des maschinellen Lernens.

Sie können Bigtable verwenden, um die folgenden Datentypen zu speichern und abzufragen:

Zeitachsendaten wie CPU- und Speicherauslastung im Zeitablauf für mehrere Server
Marketingdaten wie Einkaufsverlauf und Kundenpräferenzen
Finanzdaten wie Transaktionsverlauf, Aktienkurse und Währungskurse
Daten des Internets der Dinge wie Nutzungsberichte von Energiezählern und Haushaltsgeräten
Grafikdaten wie Informationen darüber, wie Nutzer miteinander verbunden sind

Bigtable-Speichermodell

Bigtable speichert Daten in äußerst skalierbaren Tabellen, von denen jede eine geordnete Zuordnung von Schlüssel/Wert-Paaren darstellt. Die Tabelle besteht aus Zeilen, von denen jede typischerweise eine einzelne Entität beschreibt, und Spalten, die für jede Zeile individuelle Werte beinhalten. Jede Zeile wird von einem einzelnen Zeilenschlüssel indexiert und Spalten, die sich aufeinander beziehen, sind typischerweise in Spaltenfamilien gruppiert. Jede Spalte ist durch eine Kombination aus der Spaltenfamilie und einem Spaltenqualifizierer identifizierbar, bei dem es sich um einen eindeutigen Namen innerhalb der Spaltenfamilie handelt.

Jeder Schnittpunkt einer Zeile und Spalte kann mehrere Zellen enthalten. Jede Zelle enthält eine eindeutige Zeitstempelversion der Daten für diese Zeile und Spalte. Durch Speichern mehrerer Zellen in einer Spalte wird erfasst, wie sich die gespeicherten Daten für diese Zeile und Spalte im Laufe der Zeit geändert haben. Bigtable-Tabellen sind dünnbesetzt. Wenn eine Spalte in einer bestimmten Zeile nicht verwendet wird, belegt sie keinen Platz.

Grafik: Bigtable-Speichermodell

In dieser Abbildung gibt es ein paar Dinge zu beachten:

Spalten können in einer Zeile unbenutzt sein.
Jede Zelle in einer bestimmten Zeile und Spalte hat einen eindeutigen Zeitstempel (t).

Bigtable-Architektur

Das folgende Diagramm zeigt eine vereinfachte Version der Gesamtarchitektur von Bigtable:

Gesamtarchitektur von Bigtable.

Wie im Diagramm gezeigt, laufen alle Clientanfragen durch einen Frontend-Server, bevor sie an einen Knoten in Bigtable gesendet werden. Im ursprünglichen Bigtable-Artikel werden diese Knoten als "Tablet-Server" (Tabellenreihenserver) bezeichnet. Die Knoten werden zu einem Bigtable-Cluster zusammengefasst, der zu einer Bigtable-Instanz gehört, einem Container für die Cluster.

Jeder Knoten im Cluster verarbeitet einen Teil der Anfragen an den Cluster. Durch das Hinzufügen von Knoten zu einem Cluster können Sie die Anzahl an simultanen Anfragen, die der Cluster verarbeiten kann, erhöhen. Durch das Hinzufügen von Knoten wird auch der maximale Durchsatz für den Cluster erhöht. Wenn Sie die Replikation durch Hinzufügen weiterer Cluster aktivieren, können Sie auch verschiedene Arten von Traffic an verschiedene Cluster senden. Wenn ein Cluster nicht mehr verfügbar ist, können Sie ein Failover auf einen anderen Cluster durchführen.

Eine Bigtable-Tabelle ist in Blöcke von fortlaufenden Zeilen unterteilt, die Tabellenreihen genannt werden. (Tabellenreihen sind HBase-Regionen ähnlich.) Tabellenreihen werden in Colossus, dem Dateisystem von Google, im SSTable-Format gespeichert. Eine SSTable stellt eine dauerhafte, geordnete unveränderliche Map von Schlüsseln und Karten dar, in der sowohl Schlüssel als auch Werte aus beliebigen Byte-Strings bestehen. Jede Tabellenreihe ist einem bestimmten Knoten in Bigtable zugeordnet. Zusätzlich zu den SSTable-Dateien werden alle Schreibvorgänge im gemeinsamen Log von Colossus gespeichert, sobald sie von Bigtable bestätigt wurden. Dadurch verbessert sich die Langlebigkeit.

Wichtig: Daten werden nie in Knoten von Bigtable selbst gespeichert. Jeder Knoten enthält Verweise auf einen in Colossus gespeicherten Satz von Tabellenreihen. Deshalb gilt:

Tabellenreihen von einem Knoten auf einen anderen zu übertragen, geht schnell, da die tatsächlichen Daten nicht kopiert werden müssen. Bigtable aktualisiert die Verweise für jeden Knoten.
Die Wiederherstellung nach dem Ausfall eines Bigtable-Knotens geht schnell, da nur Metadaten auf den Ersatzknoten migriert werden müssen.
Wenn ein Knoten in Bigtable fehlschlägt, gehen keine Daten verloren.

Weitere Informationen zum Arbeiten mit diesen grundlegenden Bausteinen finden Sie unter Instanzen, Cluster und Knoten.

Load-Balancing

Jede Zone in Bigtable wird von einem Primärvorgang verwaltet, der die Arbeitslast und das Datenvolumen im Cluster ausgleicht. Bei diesem Vorgang werden ausgelastete oder große Tabellenreihen halbiert und Tabellenreihen mit weniger Zugriffen oder kleinere Tabellenreihen zusammengeführt. Die Tabellenreihen werden nach Bedarf auf die Knoten verteilt. Wenn eine bestimmte Tabellenreihe Trafficspitzen erfährt, halbiert Bigtable die Tabellenreihe und verschiebt eine der neuen Tabellenreihen auf einen anderen Knoten. Bigtable übernimmt das Aufteilen, Zusammenführen und Ausgleichen automatisch und erspart Ihnen den Aufwand, die Tabellenreihen manuell verwalten zu müssen. Weitere Informationen finden Sie unter Leistung verstehen.

Für die beste Schreibleistung von Bigtable ist es wichtig, Schreibvorgänge so gleichmäßig wie möglich auf Knoten zu verteilen. Eine Art, dieses Ziel zu erreichen, besteht darin, Zeilenschlüssel zu verwenden, die keiner vorhersehbaren Ordnung folgen. Nutzernamen sind beispielsweise mehr oder weniger gleichmäßig im Alphabet verteilt, sodass ein Nutzername am Anfang des Zeilenschlüssels normalerweise für eine gleichmäßige Verteilung der Schreibvorgänge sorgt.

Gleichzeitig ist es sinnvoll, zusammengehörige Zeilen so zu gruppieren, dass sie nebeneinander liegen, wodurch es viel effizienter ist, mehrere Zeilen gleichzeitig zu lesen. Wenn Sie beispielsweise verschiedene Arten von Wetterdaten über einen Zeitraum speichern, könnte der Zeilenschlüssel aus dem Ort, an dem die Daten gesammelt wurden, und aus einem Zeitstempel bestehen (Beispiel: WashingtonDC#201803061617). Dieser Zeilenschlüsseltyp würde alle Daten von einem Ort in einen zusammenhängenden Bereich von Zeilen gruppieren. Für andere Orte würde der Zeilenschlüssel mit einer anderen Kennzeichnung beginnen. Wenn an vielen Orten Daten im gleichen Rhythmus gesammelt werden, wären sie immer noch gleichmäßig über alle Tabellenreihen verteilt.

Weitere Information über die Auswahl eines passenden Zeilenschlüssels für Ihre Daten finden Sie unter Zeilenschlüssel wählen.

Compute

Standardmäßig verwendet Bigtable Clusterknoten sowohl für Speicher als auch für Berechnungen. Für Lesejobs mit hohem Durchsatz können Sie Data Boost für Bigtable für das Computing verwenden. Mit Data Boost können Sie große Lesejobs und Abfragen mit serverlosem Computing senden, während Ihre Kernanwendung weiterhin Clusterknoten für das Computing verwendet. Weitere Informationen finden Sie unter Data Boost – Übersicht.

Unterstützte Datentypen

Bigtable behandelt alle Daten für die meisten Anwendungen als unverarbeitete Bytestrings. Die einzige Situation, in der Bigtable versucht, den Typ zu ermitteln, ist bei Inkrementierungsvorgängen, bei denen das Ziel eine als 8-Byte-Big-Endian-Wert codierte 64-Bit-Ganzzahl sein muss.

Speicher- und Laufwerksauslastung

In den folgenden Abschnitten wird dargestellt, wie mehrere Komponenten von Bigtable die Speicher- und Laufwerksauslastung Ihrer Instanz beeinflussen.

Nicht verwendete Spalten:

Spalten, die nicht in einer Bigtable-Zeile verwendet werden, belegen keinen Speicherplatz in dieser Zeile. Jede Zeile ist im Wesentlichen eine Sammlung von Schlüssel/Wert-Paaren, wobei der Schlüssel eine Kombination aus Spaltenfamilie, Spaltenqualifizierer und Zeitstempel darstellt. Wenn eine Zeile keinen Wert für eine bestimmte Spalte beinhaltet, ist das Schlüssel/Wert-Paar nicht vorhanden.

Spaltenqualifizierer

Spaltenqualifizierer belegen Platz in einer Zeile, da jeder Spaltenqualifizierer, der in einer Zeile genutzt wird, in dieser Zeile gespeichert ist. Daher ist es oft effizient, Spaltenqualifizierer als Daten zu nutzen.

Weitere Informationen zu Spaltenqualifizierern finden Sie unter Spalten.

Verdichtungen

Bigtable schreibt Ihre Tabellen in regelmäßigen Abständen neu, um gelöschte Einträge zu entfernen, die Daten neu anzuordnen, damit die Lese- und Schreibvorgänge effizienter werden, und Daten im Rahmen des mehrstufigen Speichers zu verschieben. Dieser Prozess wird als Verdichtung bezeichnet. Es gibt keine Konfigurationseinstellungen für Verdichtungen. Bigtable verdichtet Ihre Daten automatisch. Im Durchschnitt dauert es eine Woche, bis eine Komprimierung abgeschlossen ist und Aufgaben wie das Löschen von Daten oder das Verschieben von Daten in den mehrstufigen Speicher ausgeführt werden.

Bei der Komprimierung werden Löschvorgänge ausgeführt, die durch die Garbage Collection identifiziert wurden. Weitere Informationen finden Sie unter Automatische Speicherbereinigung. Weitere Informationen zu Komprimierungen im mehrstufigen Speicher finden Sie unter Funktionsweise von mehrstufigem Speicher.

Mutationen und Löschungen

Mutationen oder Änderungen beanspruchen mehr Speicherplatz, da Mutationen von Bigtable sequenziell gespeichert und nur von Zeit zu Zeit verdichtet werden. Wenn Bigtable eine Tabelle verdichtet, werden alle Werte entfernt, die nicht mehr benötigt werden. Wenn Sie den Wert in einer Zelle aktualisieren, sind für einen gewissen Zeitraum sowohl der alte als auch der neue Wert auf dem Laufwerk gespeichert, bis die Daten verdichtet werden.

Löschungen erfordern ebenfalls zusätzlichen Speicherplatz, zumindest für eine kurze Zeit, da Löschungen genau genommen ein spezieller Mutationstyp sind. Bis die Tabelle verdichtet wird, benötigt das Löschen also mehr Platz, nicht weniger.

Datenkompression

Bigtable komprimiert Ihre Daten automatisch mithilfe eines intelligenten Algorithmus. Sie können keine Einstellungen für die Kompression Ihrer Daten festlegen. Es ist jedoch nützlich zu wissen, wie Daten gespeichert werden müssen, damit sie effizient komprimiert werden können.

Zufällige Daten können nicht so effizient komprimiert werden wie Daten, die einem Muster folgen. Unter Daten, die einem Muster folgen, fallen Texte wie die Seite, die Sie gerade lesen.
Kompression funktioniert am besten, wenn identische Werte eng beieinander liegen, entweder in der gleichen oder in aneinandergrenzenden Zeilen. Wenn Sie Ihre Zeilenschlüssel so organisieren, dass Zeilen mit identischen Datenstücken nebeneinander liegen, können Daten effizient komprimiert werden.
Bigtable komprimiert Werte mit einer Größe von bis zu 1 MiB. Wenn Sie Werte speichern, die größer als 1 MiB sind, komprimieren Sie sie, bevor Sie sie in Bigtable schreiben. So können Sie CPU-Zyklen, Serverspeicher und Netzwerkbandbreite sparen.

Datenhaltbarkeit

Wenn Sie Bigtable verwenden, werden Ihre Daten in Colossus, dem internen, äußerst langlebigen Datensystem von Google, gespeichert. Dabei werden Speichergeräte in Googles Datenzentren verwendet. Sie müssen keinen HDFS-Cluster oder ein anderes Dateisystem betreiben, wenn Sie Bigtable nutzen. Hinter den Kulissen nutzt Google proprietäre Speichermethoden, um eine Datenlanglebigkeit zu erreichen, die über den Werten liegt, die eine standardmäßige dreifache HDFS-Replikation bietet.

Die Langlebigkeit wird bei der Verwendung der Replikation weiter verbessert. Bigtable verwaltet eine separate Kopie Ihrer Daten an dem Standort, den Sie für jeden Cluster einer replizierten Instanz auswählen.

Konsistenzmodell

Single-Cluster-Bigtable-Instanzen bieten strikte Konsistenz. Standardmäßig bieten Instanzen mit mehr als einem Cluster Eventual Consistency. Sie können jedoch für einige Anwendungsfälle eine Read-Your-Writes-Konsistenz oder strikte Konsistenz konfigurieren, je nach den Einstellungen für Arbeitslast und Anwendungsprofil.

Sicherheit

Der Zugriff auf Ihre Bigtable-Tabellen wird von Ihrem Google Cloud-Projekt und den IAM-Rollen (Identitäts- und Zugriffsverwaltung) gesteuert, die Sie Nutzern zuweisen. Sie können beispielsweise IAM-Rollen zuweisen, die verhindern, dass einzelne Nutzer Tabellen lesen, in Tabellen schreiben oder neue Instanzen erstellen. Wenn jemand keinen Zugriff auf Ihr Projekt hat oder keine IAM-Rolle mit den entsprechenden Berechtigungen für Bigtable besitzt, kann er auf keine Ihrer Tabellen zugreifen.

Sie können den Zugriff auf Tabellendaten auch steuern, indem Sie eine autorisierte Ansicht einer Tabelle erstellen, die eine Teilmenge der Tabellendaten darstellt. Anschließend können Sie einigen Nutzern Berechtigungen auf Ebene der autorisierten Ansicht gewähren, ohne ihnen Berechtigungen auf Tabellenebene zu erteilen.

Sie können die Sicherheit auf Projekt-, Instanz-, Tabellen- oder autorisierter Ansichtsebene verwalten. Bigtable unterstützt keine Sicherheitseinschränkungen auf Zeilen-, Spalten- oder Zellenebene.

Verschlüsselung

Standardmäßig werden alle in Google Cloudgespeicherten Daten, einschließlich der Daten in Bigtable-Tabellen, inaktiv verschlüsselt. Dies geschieht mit denselben gehärteten Schlüsselverwaltungssystemen, die wir für unsere eigenen verschlüsselten Daten verwenden.

Wenn Sie mehr Kontrolle über die Schlüssel haben möchten, die zum Verschlüsseln Ihrer inaktiven Bigtable-Daten verwendet werden, können Sie vom Kunden verwaltete Verschlüsselungsschlüssel (Customer-Managed Encryption Keys, CMEK) verwenden.

Sicherungen

Mit Bigtable-Sicherungen können Sie eine Kopie des Schemas und der Daten einer Tabelle speichern und später in einer neuen Tabelle wiederherstellen. Mit Sicherungen und Sicherungskopien können Sie eine neue Tabelle in jeder Region oder jedem Projekt wiederherstellen, in dem Sie eine Bigtable-Instanz haben, unabhängig davon, wo sich die Quelltabelle befindet.

Change Data Capture

Bigtable bietet Change Data Capture (CDC) in Form von Änderungsstreams. Mit Änderungsstreams können Sie Datenänderungen in einer Tabelle erfassen und streamen, sobald sie eintreten. Sie können einen Änderungsstream mit einem Dienst wie Dataflow lesen, um Anwendungsfälle wie Datenanalyse, Audits, Archivierungsanforderungen und das Auslösen von Downstream-Anwendungslogik zu unterstützen. Weitere Informationen finden Sie unter Übersicht über Änderungsstreams.

Routing mit Anwendungsprofilen anfordern

Mit Routingrichtlinien für Anwendungsprofile können Sie steuern, welche Cluster eingehende Anfragen von Ihren Anwendungen verarbeiten. Zu den Optionen für Routingrichtlinien gehören:

Single-Cluster-Routing: Sendet alle Anfragen an einen einzelnen Cluster.
Multi-Cluster-Routing an einen beliebigen Cluster: Sendet Anfragen an den nächsten verfügbaren Cluster in einer Instanz. Dazu gehören die folgenden Optionen:
- Beliebiger Cluster: Anfragen können an einen beliebigen Cluster in der Instanz gesendet werden.
- Clustergruppen-Routing: Eine bestimmte Gruppe von Clustern in der Instanz kann Anfragen empfangen.

Andere Speicherungs- und Datenbankoptionen

Bigtable ist keine herkömmliche relationale Datenbank. SQL-Abfragen werden zwar unterstützt, für bestimmte Anwendungsfälle ist jedoch möglicherweise eine andere Datenbankoption besser geeignet.

Wenn Sie interaktive Abfragen in einem System für die analytische Onlineverarbeitung (OLAP) benötigen, ist BigQuery möglicherweise das Richtige für Sie.
Wenn Sie stark strukturierte Objekte in einer Dokumentendatenbank mit Unterstützung für ACID-Transaktionen und SQL-ähnliche Abfragen speichern müssen, sollten Sie sich Firestore ansehen.
Für speicherinterne Datenspeicherung mit niedriger Latenz empfiehlt sich Memorystore.
Wenn Sie Daten zwischen Nutzern in Echtzeit synchronisieren möchten, verwenden Sie die Firebase Realtime Database.

Weitere Informationen zu anderen Datenbankoptionen finden Sie in der Übersicht der Datenbankdienste. Google Cloud bietet auch verschiedene Speicheroptionen.

Nächste Schritte

Bigtable-Kurzanleitung mit der cbt-Befehlszeile ausprobieren, dem Befehlszeilentool für Bigtable.
Bigtable-Codelab durcharbeiten.
Weitere Informationen zu Bigtable-Instanzen, -Clustern und -Knoten
Mehrstufiger Speicher in Bigtable
Mehr zum Erstellen einer Bigtable-Instanz.
Informationen zur Migration zu Bigtable
Mehr über die Clientbibliotheken für Cloud Bigtable lesen
Ursprüngliches OSDI-Whitepaper zu Bigtable