Bigtable Data Boost – Übersicht

Data Boost ist ein serverloser Computing-Dienst zur Ausführung von hohem Durchsatz Ihre Bigtable-Daten lesen, ohne die Leistung der Cluster, die den Anwendungstraffic verarbeiten. Damit können Sie große Lesejobs mit serverlosem Computing, während Ihre Kernanwendung weiterhin Clusterknoten für die Computing-Umgebung. SKUs für serverloses Computing und Preismodelle sind getrennt von den SKUs und Preisen für bereitgestellte Knoten. Sie können keine Schreib- oder Löschanfragen mit Data Boost.

In diesem Dokument wird Data Boost beschrieben und es wird erklärt, wann und wie Sie Data Boost verwenden. . Bevor Sie diese Seite lesen, sollten Sie sich mit dem Thema Instanzen, Cluster und Knoten.

Einsatzmöglichkeit

Data Boost eignet sich ideal für Datenanalyse- und Datenverarbeitungsarbeitslasten. Wenn Sie Ihren Analyse- und Verarbeitungstraffic mit Data Boost isolieren, müssen Sie die Kapazität oder Anzahl der Knoten eines Clusters nicht anpassen, Analysearbeitslasten. Sie können Ihre Analysejobs mit hohem Durchsatz auf einer einen einzelnen Cluster mit Data Boost erstellen, während der aktuelle Anwendungstraffic läuft über Clusterknoten weitergeleitet werden.

Ideale Anwendungsfälle für Data Boost:

  • Geplante oder ausgelöste Export- oder ETL-Pipelinejobs aus Bigtable zu Cloud Storage für Datenanreicherung, Analyse Archivierung, Offline-ML-Modelltraining oder Datenaufnahme durch das Drittanbieter
  • ETL mit einem Tool wie Dataflow für den kurzen Scan oder Batch-Leseprozesse, die direkte, regelbasierte Transformationen für Mobilgeräteverwaltungs- oder ML-Jobs

Nicht geeignet für

Punktlesevorgänge: Data Boost ist nicht die beste Option für Punktlesevorgänge. -Vorgängen, bei denen es sich um Leseanfragen handelt, die für einzelne Zeilen gesendet werden. Dazu gehören Batch-Punktlesevorgänge. Aufgrund der Abrechnungsstruktur werden viele Punkte für einzelne Zeilen Lesevorgänge erheblich teurer als ein langer Scan.

Daten sofort nach dem Schreiben lesen: Wenn Sie Daten mit Data Boost haben Sie möglicherweise nicht alle Daten gelesen, die in der letzten Zeile halbe Stunde. Dies gilt insbesondere, wenn Ihre Instanz Replikation verwendet und Sie Daten lesen, die in einen Cluster geschrieben wurden, der sich in einer anderen Region befindet aus denen Daten gelesen werden. Weitere Informationen finden Sie unter Konsistenz.

Latenzempfindliche Arbeitslasten: Data Boost ist für Durchsatz optimiert, sodass die Leselatenz bei Verwendung von Data Boost langsamer ist als beim Lesen mit Cluster und Knoten. Aus diesem Grund eignet sich Data Boost nicht für für die Anwendungsbereitstellung.

Weitere Informationen zu Arbeitslasten, Konfigurationen und Features, nicht mit Data Boost kompatibel, siehe Einschränkungen.

Data Boost-Anwendungsprofile

Wenn Sie Data Boost verwenden möchten, senden Sie Leseanfragen mit einer Data Boost-Anwendung. anstelle eines Standard-App-Profils.

Mit Standard-App-Profilen können Sie die Routingrichtlinie und Prioritätsstufe für Anfragen, die das Anwendungsprofil verwenden, und ob einzeilige Transaktionen zulässig sind. Über ein Standard-Anwendungsprofil gesendete Zugriffe werden weitergeleitet und die Knoten dieses Clusters leiten den Traffic an das Laufwerk weiter. Weitere Informationen finden Sie unter Standard-App-Profile.

Mit einem Data Boost-Anwendungsprofil konfigurieren Sie dagegen ein Single-Cluster-Routingrichtlinie zu einem der Cluster der Instanz und Traffic dieses Anwendungsprofils verwendet serverloses Computing anstelle der Knoten des Clusters.

Sie können ein neues Data Boost-Anwendungsprofil erstellen oder ein standardmäßiges App-Profil, um stattdessen Data Boost zu verwenden. Wir empfehlen die Verwendung eines Separates Anwendungsprofil für jede Arbeitslast oder Anwendung

Konsistenztokens

Daten, die mehr als 35 Mal in den Zielcluster geschrieben oder repliziert wurden Minuten, bevor Ihre Leseanfrage von Data Boost gelesen werden kann.

Sie können sicherstellen, dass die Daten aus einem bestimmten Schreibjob oder Zeitraum von Data Boost lesbar sein, bevor Sie einen Data Boost starten durch Erstellen und Verwenden eines Konsistenztoken Hier ein Beispiel für einen Workflow:

  1. Schreiben Sie einige Daten in eine Tabelle.
  2. Erstellen Sie ein Konsistenztoken.
  3. Senden Sie das Token im DataBoostReadLocalWrites-Modus, um festzustellen, wann Data Boost kann die Schreibvorgänge auf Ihrem Zielcluster lesen.

Sie können optional die Replikationskonsistenz prüfen, bevor Sie Data Boost prüfen Konsistenz, indem Sie zuerst ein Konsistenztoken im StandardReadRemoteWrites-Modus senden.

Weitere Informationen finden Sie in der API-Referenz für CheckConsistencyRequest.

Kontingent und Abrechnung

Data Boost verwendet serverlose Verarbeitungseinheiten – unabhängige, On-Demand-Rechenressourcen – zum Messen der Rechenleistung, die zum Lesen von mit Data Boost. Im Gegensatz zu Knoten werden Ihnen SPUs nur dann in Rechnung gestellt, wenn wenn Sie sie verwenden. Jede Anfrage wird mindestens 60 SPU-Sekunden in Rechnung gestellt. werden mindestens 10 SPUs pro Sekunde berechnet. Weitere Informationen zu Data Boost finden Sie in Bigtable Preise.

Das zugewiesene Kontingent und die SPUs werden getrennt vom Kontingent und Gebühren für Knoten.

Berechtigungsmesswerte

Data Boost wurde für Scans mit hohem Durchsatz entwickelt. Arbeitslasten müssen um Data Boost nutzen zu können. Bevor Sie eine Standard-App konvertieren um Data Boost zu verwenden oder ein Data Boost-Anwendungsprofil für ein vorhandene Arbeitslast, Data Boost ansehen Eignungsmesswerten, um sicherzustellen, Konfiguration und Nutzung die erforderlichen Kriterien erfüllen. Sie sollten sich auch die Einschränkungen.

Monitoring

Um Ihren Data Boost-Traffic zu überwachen, können Sie die Messwerte für Ihre Data Boost-Anwendungsprofil auf der Bigtable-Seite Monitoring in der Google Cloud Console Eine Liste der nach Anwendungsprofil verfügbaren Messwerte finden Sie unter Diagramme für Bigtable-Ressourcen überwachen

Sie können die Nutzung von serverlosen Verarbeitungseinheiten (SPUs) überwachen, indem Sie Messwert „Anzahl der SPUs“ (data_boost/spu_usage_count) in Metrics Explorer:

Du kannst aber auch weiterhin die Teilnahmevoraussetzungen Messwerte nach der Verwendung von Data Boost.

Beschränkungen

Die folgenden Arbeitslastattribute und Ressourcenkonfigurationen werden nicht unterstützt für Data Boost.

  • Schreib- und Löschvorgänge
  • Traffic, der hauptsächlich Punktlesevorgänge ist (Lesevorgänge mit einer Zeile)
  • Mehr als 1.000 Lesevorgänge pro Sekunde und Cluster
  • Umgekehrte Scans
  • Streams ändern
  • Anfrageprioritäten
  • Multi-Cluster-Routing
  • Transaktionen für einzelne Zeilen
  • Regionale Endpunkte
  • HDD-Instanzen
  • Instanzen, die CMEK-Verschlüsselung verwenden
  • Inkompatible Clientbibliotheken Sie müssen die Methode Bigtable-Client für Java Version 2.31.0 oder höher.
    • Damit Dataflow-Jobs, die BigtableIO zum Lesen von Bigtable-Daten verwenden, Apache Beam Version 2.54.0 oder höher verwenden.
    • Damit Dataflow-Jobs, die CloudBigtableIO zum Lesen von Bigtable-Daten verwenden, bigtable-hbase-beam in der Version 2.14.1 oder höher verwenden.

Folgendes wird für die Vorabversion nicht unterstützt.

  • Data Boost-Anwendungsprofil in der Google Cloud Console erstellen und konfigurieren
  • Bigtable-Daten aus BigQuery oder Spark lesen

Nächste Schritte