Bigtable Data Boost – Übersicht

Data Boost ist ein serverloser Computing-Dienst, der dazu entwickelt wurde, Lesejobs mit hohem Durchsatz für Ihre Bigtable-Daten auszuführen, ohne die Leistung der Cluster zu beeinträchtigen, die den Anwendungstraffic verarbeiten. Sie können damit große Lesejobs und ‐abfragen mit serverlosem Computing senden, während Ihre Kernanwendung weiterhin Clusterknoten für die Verarbeitung verwendet. SKUs und Preise für serverloses Computing unterscheiden sich von den SKUs und Preisen für bereitgestellte Knoten. Sie können mit Data Boost keine Schreib- oder Löschanfragen senden.

In diesem Dokument wird beschrieben, wann und wie Data Boost verwendet wird. Bevor Sie diese Seite lesen, sollten Sie den Überblick über Instanzen, Cluster und Knoten haben.

Einsatzmöglichkeit

Data Boost eignet sich ideal für Datenanalyse- und Datenverarbeitungsarbeitslasten. Wenn Sie Ihren Analyse- und Verarbeitungstraffic mit Data Boost isolieren, müssen Sie die Kapazität oder Knotenzahl eines Clusters nicht anpassen, um Analysearbeitslasten zu ermöglichen. Mit Data Boost können Sie Ihre Analysejobs mit hohem Durchsatz auf einem einzelnen Cluster ausführen, während der laufende Anwendungstraffic über Clusterknoten geleitet wird.

Ideale Anwendungsfälle für Data Boost:

  • Geplante oder ausgelöste Export- oder ETL-Pipelinejobs von Bigtable nach Cloud Storage zur Datenanreicherung, Analyse, Archivierung, Offline-ML-Modelltraining oder Aufnahme durch Drittanbieterpartner Ihrer Kunden
  • ETL mit einem Tool wie Dataflow für kurze Scan- oder Batch-Leseprozesse, die direkte Aggregationen, regelbasierte Transformationen für die Mobilgeräteverwaltung oder ML-Jobs unterstützen

Nicht geeignet für

Punktlesevorgänge: Data Boost ist nicht die beste Option für Punktlesevorgänge, bei denen es sich um Leseanfragen handelt, die für einzelne Zeilen gesendet werden. Dazu gehören auch Batch-Punktlesevorgänge. Aufgrund der Abrechnungsstruktur sind viele Punktlesevorgänge für einzelne Zeilen erheblich teurer als ein langer Scan.

Daten sofort nach dem Schreiben lesen – Wenn Sie Daten mit Data Boost lesen, werden möglicherweise nicht alle Daten gelesen, die in der letzten halben Stunde geschrieben wurden. Dies gilt insbesondere, wenn Ihre Instanz Replikation verwendet und Sie Daten lesen, die in einen Cluster geschrieben wurden, der sich in einer anderen Region befindet als der, aus dem Sie lesen. Weitere Informationen finden Sie unter Konsistenz.

Latenzempfindliche Arbeitslasten: Data Boost ist für den Durchsatz optimiert, sodass die Leselatenz bei Verwendung von Data Boost langsamer ist als beim Lesen mit Clustern und Knoten. Aus diesem Grund ist Data Boost nicht für Arbeitslasten zur Anwendungsbereitstellung geeignet.

Weitere Informationen zu Arbeitslasten, Konfigurationen und Features, die nicht mit Data Boost kompatibel sind, finden Sie unter Einschränkungen.

Data Boost-Anwendungsprofile

Wenn Sie Data Boost verwenden möchten, senden Sie Leseanfragen mit einem Data Boost-Anwendungsprofil anstelle eines Standard-Anwendungsprofils.

Mit Standard-Anwendungsprofilen können Sie die Routingrichtlinie und die Prioritätsstufe für Anfragen angeben, für die das Anwendungsprofil verwendet wird. Außerdem können Sie angeben, ob Transaktionen für einzelne Zeilen zulässig sind. Mit einem standardmäßigen Anwendungsprofil gesendeter Traffic wird an einen Cluster weitergeleitet und die Knoten dieses Clusters leiten den Traffic an das Laufwerk weiter. Weitere Informationen finden Sie unter Standard-App-Profile.

Mit einem Data Boost-Anwendungsprofil hingegen konfigurieren Sie eine Single-Cluster-Routingrichtlinie für einen der Cluster und der Traffic mit diesem Anwendungsprofil verwendet serverloses Computing anstelle der Knoten des Clusters.

Sie können ein neues Data Boost-Anwendungsprofil erstellen oder ein standardmäßiges Anwendungsprofil umwandeln, um stattdessen Data Boost zu verwenden. Wir empfehlen, für jede Arbeitslast oder Anwendung ein separates Anwendungsprofil zu verwenden.

Konsistenztokens

Daten, die mehr als 35 Minuten vor der Leseanfrage in den Zielcluster geschrieben oder repliziert wurden, sind von Data Boost lesbar.

Durch Erstellen und Verwenden eines Konsistenztokens können Sie dafür sorgen, dass die Daten aus einem bestimmten Schreibjob oder Zeitraum von Data Boost gelesen werden können, bevor Sie eine Data Boost-Arbeitslast initiieren. Hier ein Beispiel für einen Workflow:

  1. Schreiben Sie einige Daten in eine Tabelle.
  2. Erstellen Sie ein Konsistenztoken.
  3. Senden Sie das Token im DataBoostReadLocalWrites-Modus, um festzustellen, wann die Schreibvorgänge von Data Boost in Ihrem Zielcluster gelesen werden können.

Sie können optional die Replikationskonsistenz vor der Data Boost-Konsistenz prüfen. Senden Sie dazu zuerst ein Konsistenztoken im StandardReadRemoteWrites-Modus.

Weitere Informationen finden Sie in der API-Referenz zu CheckConsistencyRequest.

Kontingent und Abrechnung

Data Boost verwendet serverlose Verarbeitungseinheiten – unabhängige On-Demand-Rechenressourcen –, um die Rechenleistung zu messen, die zum Lesen von Daten mit Data Boost verwendet wird. Im Gegensatz zu Knoten werden Ihnen SPUs nur dann in Rechnung gestellt, wenn Sie sie verwenden. Jede Anfrage wird mindestens 60 SPU-Sekunden in Rechnung gestellt. Ihnen werden mindestens 10 SPUs pro Sekunde in Rechnung gestellt. Weitere Informationen zu den Preisen für Data Boost finden Sie unter Bigtable-Preise.

Die Kontingente und Gebühren für SPUs werden Ihnen getrennt vom Kontingent und den Gebühren für Knoten zugewiesen.

Berechtigungsmesswerte

Data Boost wurde für Scans mit hohem Durchsatz entwickelt. Arbeitslasten müssen kompatibel sein, um Data Boost verwenden zu können. Bevor Sie ein Standard-Anwendungsprofil zur Verwendung von Data Boost umwandeln oder ein Data Boost-Anwendungsprofil für eine vorhandene Arbeitslast erstellen, sehen Sie sich die Data Boost-Berechtigungsmesswerte an, um sicherzustellen, dass Ihre Konfiguration und Nutzung die erforderlichen Kriterien erfüllen. Sie sollten sich auch die Einschränkungen ansehen.

Monitoring

Zum Überwachen Ihres Data Boost-Traffics können Sie die Messwerte für Ihr Data Boost-Anwendungsprofil auf der Bigtable-Seite „Monitoring“ in der Google Cloud Console prüfen. Eine Liste der nach Anwendungsprofil verfügbaren Messwerte finden Sie unter Diagramme für Bigtable-Ressourcen überwachen.

Sie können die Nutzung serverloser Verarbeitungseinheiten (SPUs) überwachen. Prüfen Sie dazu im Metrics Explorer den Messwert „Anzahl der SPUs“ (data_boost/spu_usage_count).

Sie können die Berechtigungsmesswerte für das Anwendungsprofil auch nach der Verwendung von Data Boost weiter im Blick behalten.

Beschränkungen

Die folgenden Arbeitslastattribute und Ressourcenkonfigurationen werden für Data Boost nicht unterstützt.

  • Schreib- und Löschvorgänge
  • Traffic, der hauptsächlich Punktlesevorgänge ist (Lesevorgänge mit einer Zeile)
  • Mehr als 1.000 Lesevorgänge pro Sekunde und Cluster
  • Umgekehrte Scans
  • Streams ändern
  • Anfrageprioritäten
  • Multi-Cluster-Routing
  • Transaktionen für einzelne Zeilen
  • Regionale Endpunkte
  • HDD-Instanzen
  • Instanzen, die CMEK-Verschlüsselung verwenden
  • Inkompatible Clientbibliotheken Sie müssen Version 2.31.0 oder höher des Bigtable-Clients für Java verwenden.
    • Damit Dataflow-Jobs, die BigtableIO zum Lesen von Bigtable-Daten verwenden, Apache Beam Version 2.54.0 oder höher verwenden.
    • Damit Dataflow-Jobs, die CloudBigtableIO zum Lesen von Bigtable-Daten verwenden, bigtable-hbase-beam in der Version 2.14.1 oder höher verwenden.

Folgendes wird für die Vorabversion nicht unterstützt.

  • Data Boost-Anwendungsprofil in der Google Cloud Console erstellen und konfigurieren
  • Bigtable-Daten aus BigQuery oder Spark lesen

Nächste Schritte