Schreibvorgänge

Auf dieser Seite sind die Arten von Schreibanfragen aufgeführt, die Sie an Bigtable senden können. Außerdem wird beschrieben, wann Sie sie verwenden sollten und wann nicht.

Mit der Bigtable Data API und den Clientbibliotheken können Sie programmatisch Daten in Ihre Tabellen schreiben. Bigtable sendet für jeden Schreibvorgang eine Antwort oder Bestätigung zurück.

Jede Clientbibliothek bietet die Möglichkeit, die folgenden Schreibanfragetypen zu senden:

  • Einfache Schreibvorgänge
  • Erhöhungen und Ergänzungen
  • Bedingte Schreibvorgänge
  • Batchschreibvorgänge

Bigtable-Clientbibliotheken haben eine integrierte intelligente Wiederholungsfunktion für einfache Schreibvorgänge und Batchschreibvorgänge. Sie kommen also problemlos mit vorübergehenden Ausfällen zurecht. Wenn Ihre Anwendung beispielsweise versucht, Daten zu schreiben, und ein vorübergehender Ausfall oder ein Netzwerkproblem auftritt, wird der Versuch automatisch wiederholt, bis der Schreibvorgang durchgeführt wurde oder das Zeitlimit für Anfragen erreicht ist. Diese Ausfallsicherheit funktioniert sowohl bei Single-Cluster- als auch bei replizierten Instanzen mit Single-Cluster- oder Multi-Cluster-Routing.

Für Batch- und Streaming-Schreibvorgänge können Sie den Bigtable Beam-Connector verwenden. Weitere Informationen finden Sie unter Batchschreibvorgänge.

Informationen zu Limits für Schreibanfragen finden Sie unter Kontingente und Limits.

Beispiele für jeden Schreibvorgangstypen sind für jede Cloud Bigtable-Clientbibliothek verfügbar.

Informationen zum Hinzufügen von Daten in Aggregatzellen finden Sie unter Werte beim Schreiben aggregieren (Vorschau).

Schreibvorgangstypen und ihre Verwendung

Alle Schreibanfragen umfassen die folgenden grundlegenden Komponenten:

  • Den Namen der Tabelle, in die Daten geschrieben werden sollen.
  • Eine App-Profil-ID, die Bigtable mitteilt, wie der Traffic weitergeleitet werden soll.
  • Eine oder mehrere Mutationen. Eine Mutation besteht aus vier Elementen:
    • Name der Spaltenfamilie
    • Spaltenqualifizierer
    • Zeitstempel
    • Wert, den Sie in die Datenbank schreiben.

Der Zeitstempel einer Mutation hat einen Standardwert aus dem aktuellen Datum und der aktuellen Uhrzeit, gemessen als Zeit, die seit der Unix-Epoche, 00:00:00 Uhr (UTC) am 1. Januar 1970 vergangen ist.

Ein Zeitstempel, den Sie an Bigtable senden, muss ein Mikrosekundenwert sein und darf höchstens eine Genauigkeit im Millisekundenbereich haben. Ein Zeitstempel mit einer Genauigkeit von Mikrosekunden wie 3023483279876543 wird abgelehnt. In diesem Beispiel ist der zulässige Zeitstempelwert 3023483279876000.

Alle Mutationen in einer einzelnen Schreibanfrage haben denselben Zeitstempel, sofern Sie sie nicht überschreiben. Sie können den Zeitstempel aller Mutationen in einer Schreibanfrage gleich oder unterschiedlich festlegen.

Einfache Schreibvorgänge

Sie können eine einzelne Zeile in Bigtable mit einer MutateRow-Anfrage schreiben, die den Tabellennamen, die ID des zu verwendenden Anwendungsprofils, einen Zeilenschlüssel und bis zu 100.000 Mutationen für diese Zeile enthält. Ein einzeiliger Schreibvorgang ist atomar. Verwenden Sie diesen Schreibvorgangstyp, wenn Sie mehrere Mutationen an einer einzelnen Zeile vornehmen.

Codebeispiele zum Senden einfacher Schreibanfragen finden Sie unter Einfache Schreibanfragen ausführen.

Wann einfache Schreibvorgänge nicht verwendet werden sollen

Für die folgenden Anwendungsfälle sind einfache Schreibvorgänge nicht die beste Möglichkeit, um Daten zu schreiben:

  • Sie schreiben einen Datenbatch mit zusammenhängenden Zeilenschlüsseln. In diesem Fall sollten Sie Batchschreibvorgänge anstelle von aufeinanderfolgenden einfachen Schreibvorgängen verwenden, da ein zusammenhängender Batch in einem einzelnen Back-End-Aufruf angewendet werden kann.

  • Sie möchten einen hohen Durchsatz (Zeilen pro Sekunde oder Byte pro Sekunde) und benötigen keine niedrige Latenz. In diesem Fall sind Batchschreibvorgänge schneller.

Erhöhungen und Ergänzungen

In vielen Fällen ist die Verwendung von Aggregatfunktionen (Vorschau) die beste Möglichkeit, einen Wert beim Schreiben zu aktualisieren. Aggregatfunktionen unterstützen jedoch keine Append-Vorgänge. Weitere Informationen finden Sie unter Aggregierte Werte beim Schreiben.

Wenn Sie Daten an einen vorhandenen Wert anhängen möchten oder einen vorhandenen numerischen Wert erhöhen möchten und keine Aggregatfunktionen verwenden können, senden Sie eine ReadModifyWriteRow-Anfrage. Diese Anfrage enthält den Tabellennamen, die ID des zu verwendenden Anwendungsprofils, einen Zeilenschlüssel und eine Reihe von Regeln, die beim Schreiben der Daten verwendet werden. Jede Regel enthält den Namen der Spaltenfamilie, den Spaltenqualifizierer und entweder einen Anfügewert oder einen inkrementellen Wert.

Regeln werden der Reihe nach angewendet. Wenn Ihre Anfrage beispielsweise eine Anfrage zum Erhöhen des Werts für eine Spalte um zwei enthält und eine spätere Regel in derselben Anfrage dieselbe Spalte um 1 erhöht, wird die Spalte in diesem einzelnen atomaren Schreibvorgang um 3 erhöht. Die spätere Regel überschreibt nicht die frühere Regel.

Ein Wert kann nur erhöht werden, wenn er als 64-Bit-Big-Endian-Ganzzahl codiert ist. Bigtable behandelt eine Erhöhung auf einen leeren oder nicht vorhandenen Wert wie einen Wert, der null ist. ReadModifyWriteRow-Anfragen sind atomar. Sie werden nicht wiederholt, wenn sie aus irgendeinem Grund fehlschlagen.

Codebeispiele zum Anhängen eines Werts in einer Zelle finden Sie unter Vorhandenen Wert erhöhen.

Wann sollte ReadModifyWriteRow nicht verwendet werden?

Sie sollten in den folgenden Situationen keine ReadModifyWriteRow-Anfragen senden:

  • Für Ihren Anwendungsfall können Sie zusammengefasste Berichte verwenden (Vorschau).

  • Sie verwenden ein Anwendungsprofil mit Multi-Cluster-Routing.

  • Sie verwenden mehrere Single-Cluster-App-Profile und senden Schreibvorgänge, die mit Daten in Konflikt stehen können, die in derselben Zeile und Spalte in anderen Clustern in der Instanz geschrieben wurden. Beim Single-Cluster-Routing wird eine Schreibanfrage an einen einzelnen Cluster gesendet und anschließend repliziert.

  • Sie nutzen die intelligente Wiederholungsfunktion, die von den Clientbibliotheken bereitgestellt wird. Erhöhungen und Ergänzungen sind nicht abrufbar.

  • Sie schreiben große Datenmengen und müssen die Schreibvorgänge schnell beenden. Eine Anfrage, die eine Zeile liest und dann ändert, ist langsamer als eine einfache Schreibanfrage. Dieser Schreibvorgangstyp ist daher bei umfangreichen Projekten oft nicht der beste Ansatz. Wenn Sie beispielsweise etwas in Millionenhöhe zählen möchten (z. B. Seitenaufrufe), sollten Sie Aggregatfunktionen verwenden, um die Anzahl zum Schreibzeitpunkt zu aktualisieren. Sie können auch jede Ansicht als einfachen Schreibvorgang aufzeichnen, anstatt einen Wert zu erhöhen, und dann die Daten mithilfe eines Dataflow-Jobs aggregieren.

Bedingte Schreibvorgänge

Wenn Sie eine Zeile auf eine Bedingung prüfen und dann je nach Ergebnis Daten in diese Zeile schreiben möchten, senden Sie eine CheckAndMutateRow-Anfrage. Dieser Anfragetyp umfasst einen Zeilenschlüssel und einen Zeilenfilter. Ein Zeilenfilter besteht aus einer Reihe von Regeln, mit denen Sie den Wert vorhandener Daten prüfen. Danach werden Mutationen nur dann bestimmten Spalten in der Zeile zugewiesen, wenn bestimmte Bedingungen erfüllt sind, die vom Filter überprüft wurden. Das Überprüfen und anschließende Schreiben wird als einzelne atomare Aktion abgeschlossen.

Eine Filteranfrage muss einen oder beide Mutationstypen enthalten:

  • "Wahre" Mutationen oder die Mutationen, die angewendet werden müssen, wenn der Filter einen Wert zurückgibt
  • "Falsche" Mutationen, die angewendet werden, wenn der Filter keine Ergebnisse liefert

Sie können bis zu 100.000 Mutationen jedes Typs (wahr und falsch) in einem einzigen Schreibvorgang bereitstellen und Sie müssen mindestens einen davon senden. Bigtable sendet eine Antwort, wenn alle Mutationen abgeschlossen sind.

Codebeispiele zum Senden von bedingten Schreibvorgängen finden Sie unter Wert bedingt schreiben.

Wann bedingte Schreibvorgänge nicht verwendet werden sollen

Für den folgenden Anwendungsfall können Sie keine bedingten Schreibvorgänge verwenden:

  • Sie verwenden ein Anwendungsprofil mit Multi-Cluster-Routing.

  • Sie verwenden mehrere Single-Cluster-App-Profile und senden Schreibvorgänge, die mit Daten in Konflikt stehen können, die in derselben Zeile und Spalte in anderen Clustern in der Instanz geschrieben wurden. Beim Single-Cluster-Routing wird eine Schreibanfrage an einen einzelnen Cluster gesendet und anschließend repliziert.

Batchschreibvorgänge

Mit einer MutateRows-Anfrage können Sie mit einem Aufruf mehr als eine Zeile schreiben. MutateRows-Anfragen enthalten einen Satz von bis zu 100.000 Einträgen, die jeweils atomar angewendet werden. Jeder Eintrag besteht aus einem Zeilenschlüssel und mindestens einer Mutation, die auf die Zeile angewendet werden soll. Eine Batchschreibanfrage kann bis zu 100.000 Mutationen enthalten, die auf alle Einträge verteilt sind. Ein Batchschreibvorgang könnte beispielsweise eine der folgenden Varianten enthalten:

  • 100.000 Einträge mit 1 Mutation in jedem Eintrag
  • 1 Eintrag mit 100.000 Mutationen
  • 1.000 Einträge mit jeweils 100 Mutationen

Jeder Eintrag in einer MutateRows-Anfrage ist atomar, die Anfrage insgesamt jedoch nicht. Bei Bedarf wiederholt Bigtable alle Einträge im Batch, die nicht erfolgreich sind, bis alle Schreibvorgänge erfolgreich sind oder das Zeitlimit für Anfragen erreicht ist. Dann wird eine Antwort zurückgegeben, die jeden Schreibvorgang im Stapel identifiziert und angibt, ob der Schreibvorgang erfolgreich war oder nicht.

Codebeispiele zum Senden von Batchschreibvorgängen finden Sie unter Batchschreibvorgänge ausführen.

Wann keine Batchschreibvorgänge verwendet werden sollen

  • Sie schreiben Bulk-Daten in Zeilen, die nicht nahe beieinander liegen. Bigtable speichert Daten lexikografisch nach Zeilenschlüssel, dem binären Äquivalent der alphabetischen Reihenfolge. Aus diesem Grund werden unterschiedliche Zeilenschlüssel in einer Anfrage von Bigtable nacheinander und nicht parallel verarbeitet. Sowohl der Durchsatz als auch die Latenz werden hoch sein. Verwenden Sie MutateRows, wenn die Zeilenschlüssel ähnlich sind und Bigtable Zeilen schreibt, die nahe beieinander liegen, um diese hohe Latenz zu vermeiden. Verwenden Sie MutateRow oder einfache Schreibvorgänge für Zeilen, die nicht nah beieinander liegen.

  • Sie fordern mehrere Mutationen in derselben Zeile an. In diesem Fall ist die Leistung besser, wenn Sie alle Mutationen in einer einzelnen einfachen Schreibanfrage ausführen. Dies liegt daran, dass bei einem einfachen Schreibvorgang alle Änderungen in einer einzigen atomaren Aktion durchgeführt werden, während beim Batchschreibvorgang Mutationen in dieselbe Zeile serialisiert werden, was Latenz verursacht.

Ablaufsteuerung für Batchschreibvorgänge

Wenn Sie Ihre Batchschreibvorgänge mit einer der folgenden Methoden senden, können Sie die Abfolge von Batchschreibvorgängen in Ihrem Code aktivieren.

Wenn die Batch-Schreibablaufsteuerung für einen Dataflow-Job aktiviert ist, führt Bigtable automatisch folgende Aktionen aus :

  • Traffic mit Ratenbegrenzungen, um eine Überlastung Ihres Bigtable-Clusters zu vermeiden
  • Stellt sicher, dass der Cluster unter einer ausreichenden Last steht, um das Bigtable-Autoscaling auszulösen (falls aktiviert), sodass dem Cluster bei Bedarf automatisch mehr Knoten hinzugefügt werden

Diese kombinierten Aktionen verhindern eine Clusterüberlastung und Jobfehler. Außerdem müssen Sie den Cluster vor Ausführung des Batchschreibvorgangs nicht manuell skalieren. Wenn die Ablaufsteuerung aktiviert ist, erfolgt die Clusterskalierung während des Dataflow-Jobs und nicht davor. Daher kann der Job länger dauern als bei einer manuellen Skalierung des Clusters.

Sie müssen ein Anwendungsprofil verwenden, das für Single-Cluster-Routing konfiguriert ist. Das Aktivieren von Bigtable-Autoscaling für den Zielcluster ist keine Voraussetzung. Mit Autoscaling können Sie jedoch die Vorteile der Batch-Schreibflusssteuerung in vollem Umfang nutzen. Sie können Dataflow-Autoscaling wie bei jedem anderen Job verwenden.

Weitere Informationen zum Bigtable-Autoscaling finden Sie unter Autoscaling. Informationen zu den Routingrichtlinien für Anwendungsprofil finden Sie unter Übersicht über Anwendungsprofil.

Ein Codebeispiel, das zeigt, wie Sie die Batch-Schreibablaufsteuerung mit dem Bigtable-HBase Beam-Connector aktivieren, finden Sie unter In Bigtable schreiben.

Daten in eine autorisierte Ansicht schreiben

Wenn Sie Daten in eine autorisierte Ansicht schreiben möchten, müssen Sie eine der folgenden Optionen verwenden:

  • gcloud-CLI
  • Bigtable-Client für Java

Die anderen Bigtable-Clientbibliotheken unterstützen noch keinen autorisierten Zugriff auf die Ansicht.

Wenn Sie Daten in eine autorisierte Ansicht schreiben, geben Sie zusätzlich zur Tabellen-ID die ID der autorisierten Ansicht an.

Alle Schreibvorgänge in eine autorisierte Ansicht werden direkt auf die zugrunde liegende Tabelle angewendet.

Einschränkungen der Definition von autorisierten Ansichten

In einer autorisierten Ansicht sind die Zeilen oder Spalten, für die Sie Daten schreiben können, durch die Definition der autorisierten Ansicht begrenzt. Mit anderen Worten, Sie können nur in Zeilen und Spalten schreiben, die dieselben Kriterien erfüllen, die für die autorisierte Ansicht angegeben wurden.

Wenn die autorisierte Ansicht beispielsweise durch das Zeilenschlüsselpräfix examplepetstore1 definiert ist, können Sie keine Daten mit dem Zeilenschlüssel examplepetstore2 schreiben. Der Anfang des Zeilenschlüsselwerts muss den gesamten String examplepetstore1 enthalten.

Wenn die autorisierte Ansicht durch das Spaltenqualifizierpräfix order-phone definiert ist, können Sie Daten mit dem Spaltenqualifizierer order-phone123 schreiben, aber nicht den Spaltenqualifizierer order-tablet verwenden.

Ihre Schreibanfrage kann auch nicht auf Daten verweisen, die sich außerhalb der autorisierten Ansicht befinden, z. B. wenn Sie in einer bedingten Schreibanfrage auf einen Wert prüfen.

Für jede Anfrage, die Daten außerhalb der autorisierten Ansicht schreibt oder auf Daten verweist, wird die Fehlermeldung PERMISSION_DENIED zurückgegeben.

Replikation

Wenn ein Cluster einer replizierten Instanz einen Schreibvorgang erhält, wird dieser Schreibvorgang sofort auf die anderen Cluster in der Instanz repliziert.

Atomarität

Jede MutateRows-Anfrage, die Sie an eine replizierte Instanz senden, wird als einzelne atomare Aktion für den Cluster festgeschrieben, an den die Anfrage weitergeleitet wird. Wenn der Schreibvorgang auf die anderen Cluster in der Instanz repliziert wird, erhalten auch diese Cluster den Schreibvorgang als atomaren Vorgang. Cluster erhalten keine partiellen Mutationen. Eine Mutation ist entweder für alle Zellen, die sie ändert, erfolgreich oder schlägt atomisch fehl.

Konsistenz

Wie lange es dauert, bis die von Ihnen geschriebenen Daten für Lesevorgänge zur Verfügung stehen, hängt von mehreren Faktoren ab, einschließlich der Anzahl der Cluster in Ihrer Instanz und des Routing-Typs, den Ihr App-Profil verwendet. Bei einer Instanz mit einem einzelnen Cluster können die Daten sofort gelesen werden. Wenn eine Instanz jedoch mehrere Cluster enthält, also die Replikation verwendet wird, ist Bigtable Eventual Consistency. Sie können die Read-Your-Writes-Konsistenz erreichen, indem Sie Anfragen an denselben Cluster weiterleiten.

Sie können ein Konsistenztoken erstellen und verwenden und CheckConsistency im StandardReadRemoteWrites-Modus aufrufen, nachdem Sie Schreibanfragen gesendet haben. Das Token prüft die Replikationskonsistenz. Im Allgemeinen erstellen Sie ein Konsistenztoken entweder nach dem Senden eines Batches von Schreibvorgängen oder nach einem bestimmten Intervall, z. B. einer Stunde. Anschließend können Sie das Token übergeben, damit es von einem anderen Prozess verwendet werden kann, z. B. einem Modul, das eine Leseanfrage stellt. Das Token prüft mit dem Token, ob alle Daten repliziert wurden, bevor es versucht zu lesen.

Wenn Sie ein Token direkt nach dem Erstellen verwenden, kann es einige Minuten dauern, bis die Konsistenz bei der ersten Verwendung überprüft wurde. Diese Verzögerung liegt daran, dass jeder Cluster jeden anderen Cluster überprüft, um sicherzustellen, dass keine Daten mehr eingehen. Nach der erstmaligen Verwendung oder wenn Sie einige Minuten auf die erstmalige Verwendung des Tokens warten, ist das Token bei jeder Verwendung sofort erfolgreich.

Konfliktlösung

Jeder Zellenwert in einer Bigtable-Tabelle wird durch das Vierertupel (Zeilenschlüssel, Spaltenfamilie, Spaltenqualifizierer, Zeitstempel) eindeutig identifiziert. Weitere Informationen zu diesen Kennzeichnungen finden Sie unter Bigtable-Speichermodell. In dem seltenen Fall, dass zwei Schreibvorgänge mit demselben identischen Vierertupel an zwei verschiedene Cluster gesendet werden, löst Bigtable den Konflikt automatisch mithilfe eines internen Algorithmus des Typs last write wins auf Grundlage der serverseitigen Zeit auf. Die Bigtable-Implementierung "Last write Wins" (Zeitpunkte des letzten Schreibvorgangs) ist deterministisch. Wenn die Replikation aufholt, haben alle Cluster denselben Wert für das Vierertupel.

Nächste Schritte