Bigtable Data Boost – Übersicht

Data Boost ist ein serverloser Computing-Dienst, der entwickelt wurde, um Lesejobs mit hohem Durchsatz an Ihren Bigtable-Daten auszuführen, ohne die Leistung der Cluster zu beeinträchtigen, die Ihren Anwendungstraffic verarbeiten. Sie können damit große Lesejobs und Abfragen mit serverlosem Computing senden, während Ihre Kernanwendung weiterhin Clusterknoten für die Verarbeitung verwendet. SKUs für serverloses Computing und Abrechnungstarife unterscheiden sich von den SKUs und Preisen für bereitgestellte Knoten. Mit Data Boost können Sie keine Schreib- oder Löschanfragen senden.

In diesem Dokument wird beschrieben, wann und wie Data Boost verwendet wird. Bevor Sie diese Seite lesen, sollten Sie sich mit den Informationen zu Instanzen, Clustern und Knoten vertraut machen.

Einsatzmöglichkeit

Data Boost eignet sich ideal für Datenanalyse- und Datenverarbeitungsarbeitslasten. Wenn Sie den Analyse- und Verarbeitungs-Traffic mit Data Boost isolieren, müssen Sie die Kapazität oder Knotenanzahl eines Clusters nicht anpassen, um Analysearbeitslasten zu verarbeiten. Mit Data Boost können Sie Analysejobs mit hohem Durchsatz in einem einzelnen Cluster ausführen, während der laufende Anwendungstraffic über Clusterknoten geleitet wird.

Die folgenden Anwendungsfälle sind ideal für Data Boost:

  • Geplante oder ausgelöste Export- oder ETL-Pipelinejobs von Bigtable nach Cloud Storage zur Datenanreicherung, Analyse, Archivierung, zum Trainieren von Offline-ML-Modellen oder zur Aufnahme durch Drittanbieter von Kunden
  • ETL mit einem Tool wie Dataflow für kurze Scan- oder Batch-Leseprozesse, die direkte Aggregationen, regelbasierte Transformationen für MDM oder ML-Jobs unterstützen

Nicht geeignet für

Punktlesevorgänge: Data Boost ist nicht die beste Option für Punktlesevorgänge, bei denen es sich um Leseanfragen für einzelne Zeilen handelt. Dies gilt auch für aufeinanderfolgende Punktlesevorgänge. Aufgrund der Abrechnungsstruktur sind viele Lesevorgänge für einzelne Zeilen erheblich teurer als ein langer Scan.

Daten sofort nach dem Schreiben lesen: Wenn Sie Daten mit Data Boost lesen, werden möglicherweise nicht alle Daten gelesen, die in der letzten halben Stunde geschrieben wurden. Dies gilt insbesondere, wenn Ihre Instanz Replikation verwendet und Sie Daten lesen, die in einen Cluster in einer anderen Region als der, aus der Sie lesen, geschrieben wurden. Weitere Informationen finden Sie unter Konsistenz.

Latenzempfindliche Arbeitslasten: Data Boost ist für den Durchsatz optimiert, sodass die Leselatenz langsamer ist, wenn Sie Data Boost verwenden als beim Lesen mit Clustern und Knoten. Aus diesem Grund eignet sich Data Boost nicht für Arbeitslasten der Anwendungsbereitstellung.

Weitere Informationen zu Arbeitslasten, Konfigurationen und Features, die nicht mit Data Boost kompatibel sind, finden Sie unter Einschränkungen.

Data Boost-Anwendungsprofile

Wenn Sie Data Boost verwenden möchten, senden Sie Ihre Leseanfragen mit einem Data Boost-Anwendungsprofil anstelle eines standardmäßigen Anwendungsprofils.

Mit Standard-Anwendungsprofilen können Sie die Routingrichtlinie und die Prioritätsstufe für Anfragen angeben, die das Anwendungsprofil verwenden. Außerdem können Sie festlegen, ob Transaktionen für einzelne Zeilen zulässig sind. Traffic, der mit einem Standard-Anwendungsprofil gesendet wird, wird an einen Cluster weitergeleitet. Die Knoten dieses Clusters leiten den Traffic an das Laufwerk weiter. Weitere Informationen finden Sie unter Übersicht über Standard-Anwendungsprofile.

Bei einem Data Boost-Anwendungsprofil konfigurieren Sie dagegen eine Single-Cluster-Routingrichtlinie zu einem der Cluster Ihrer Instanz und der Traffic, der dieses Anwendungsprofil verwendet, verwendet serverloses Computing anstelle der Knoten des Clusters.

Sie können ein neues Data Boost-Anwendungsprofil erstellen oder ein standardmäßiges Anwendungsprofil konvertieren, um stattdessen Data Boost zu verwenden. Wir empfehlen, für jede Arbeitslast oder Anwendung ein separates Anwendungsprofil zu verwenden.

Konsistenztokens

Daten, die mehr als 35 Minuten vor Ihrer Leseanfrage in Ihren Zielcluster geschrieben oder repliziert wurden, sind von Data Boost lesbar.

Damit die Daten eines bestimmten Schreibjobs oder Zeitraums von Data Boost gelesen werden können, bevor Sie eine Data Boost-Arbeitslast initiieren, können Sie ein Konsistenztoken erstellen und verwenden. Hier ein Beispiel-Workflow:

  1. Daten in eine Tabelle schreiben
  2. Erstellen Sie ein Konsistenztoken.
  3. Senden Sie das Token im Modus DataBoostReadLocalWrites, um zu bestimmen, wann die Schreibvorgänge von Data Boost im Zielcluster lesbar sind.

Optional können Sie die Replikationskonsistenz prüfen, bevor Sie die Data Boost-Konsistenz prüfen. Dazu senden Sie zuerst ein Konsistenztoken im StandardReadRemoteWrites-Modus.

Weitere Informationen finden Sie in der API-Referenz für CheckConsistencyRequest.

Kontingent und Abrechnung

Data Boost verwendet serverlose Verarbeitungseinheiten (Serverless Processing Units, SPUs), unabhängige On-Demand-Rechenressourcen, um die Rechenleistung zu messen, die zum Lesen von Daten mit Data Boost verwendet wird. Im Gegensatz zu Knoten werden Ihnen SPUs nur dann in Rechnung gestellt, wenn Sie sie nutzen. Jede Anfrage wird für mindestens 60 SPU-Sekunden in Rechnung gestellt. Außerdem werden Ihnen mindestens 10 SPUs pro Sekunde in Rechnung gestellt. Weitere Informationen zu den Data Boost-Preisen finden Sie unter Bigtable-Preise.

Ihnen wird ein Kontingent zugewiesen und SPUs werden getrennt vom Kontingent und den Gebühren für Knoten in Rechnung gestellt.

Eignungsmesswerte

Data Boost wurde für Scans mit hohem Durchsatz entwickelt. Arbeitslasten müssen kompatibel sein, um Data Boost verwenden zu können. Bevor Sie ein Standard-Anwendungsprofil für die Verwendung von Data Boost konvertieren oder ein Data Boost-Anwendungsprofil für eine vorhandene Arbeitslast erstellen, rufen Sie die Data Boost-Berechtigungsmesswerte auf, um sicherzustellen, dass Ihre Konfiguration und Nutzung die erforderlichen Kriterien erfüllen. Prüfen Sie außerdem die Einschränkungen.

Monitoring

Zum Monitoring Ihres Data Boost-Traffics können Sie die Messwerte für Ihr Data Boost-Anwendungsprofil auf der Bigtable-Seite „Monitoring“ in der Google Cloud Console prüfen. Eine Liste der verfügbaren Messwerte nach Anwendungsprofil finden Sie unter Monitoring-Diagramme für Bigtable-Ressourcen.

Sie können die Nutzung serverloser Verarbeitungseinheiten (Service Units, SPUs) im Blick behalten. Dazu prüfen Sie im Metrics Explorer den Messwert „Anzahl der SPU-Nutzung (data_boost/spu_usage_count)“.

Sie können die Berechtigungsmesswerte für das Anwendungsprofil auch weiterhin überwachen, nachdem Sie Data Boost verwendet haben.

Beschränkungen

Die folgenden Arbeitslastattribute und Ressourcenkonfigurationen werden für Data Boost nicht unterstützt.

  • Schreib- und Löschvorgänge
  • Traffic, bei dem es sich hauptsächlich um Punktlesevorgänge handelt (einzeilige Lesevorgänge)
  • Mehr als 1.000 Lesevorgänge pro Sekunde und Cluster
  • Umgekehrte Scans
  • Streams ändern
  • Anfrageprioritäten
  • Multi-Cluster-Routing
  • Transaktionen für einzelne Zeilen
  • Regionale Endpunkte
  • HDD-Instanzen
  • Instanzen, die die CMEK-Verschlüsselung verwenden
  • Inkompatible Clientbibliotheken. Verwenden Sie den Bigtable-Client für Java Version 2.31.0 oder höher. Für Dataflow-Jobs, die Bigtable-Daten lesen, müssen Sie Apache Beam Version 2.54.0 oder höher verwenden.

Folgendes wird in der Vorabversion nicht unterstützt.

  • Data Boost-Anwendungsprofil-Erstellung und -Konfiguration in der Google Cloud Console
  • Bigtable-Daten aus BigQuery oder Spark lesen

Nächste Schritte