Bigtable Data Boost – Übersicht
Data Boost ist ein serverloser Computing-Dienst zur Ausführung von hohem Durchsatz Ihre Bigtable-Daten lesen, ohne die Leistung der Cluster, die den Anwendungstraffic verarbeiten. Sie können große Lesejobs und Abfragen mit serverlosem Computing senden, während Ihre Hauptanwendung weiterhin Clusterknoten für die Datenverarbeitung verwendet. SKUs und Abrechnungsraten für serverloses Computing sind von den SKUs und Preisen für bereitgestellte Knoten getrennt. Mit Data Boost können Sie keine Schreib- oder Löschanfragen senden.
In diesem Dokument wird Data Boost beschrieben und wie und wann Sie ihn verwenden können. Bevor Sie diese Seite lesen, sollten Sie sich mit dem Thema Instanzen, Cluster und Knoten.
Einsatzmöglichkeit
Data Boost eignet sich ideal für Datenanalyse- und Datenverarbeitungsarbeitslasten. Wenn Sie Ihren Analyse- und Verarbeitungstraffic mit Data Boost isolieren, müssen Sie die Kapazität oder Knotenanzahl eines Clusters nicht an Analysearbeitslasten anpassen. Sie können Ihre Analysejobs mit hohem Durchsatz auf einer einen einzelnen Cluster mit Data Boost erstellen, während der aktuelle Anwendungstraffic läuft über Clusterknoten weitergeleitet werden.
Die folgenden Anwendungsfälle eignen sich ideal für Data Boost:
- Geplante oder ausgelöste Export- oder ETL-Pipelinejobs aus Bigtable zu Cloud Storage für Datenanreicherung, Analyse Archivierung, Offline-ML-Modelltraining oder Datenaufnahme durch das Drittanbieter
- ETL mit einem Tool wie Dataflow für kurze Scan- oder Batchleseprozesse, die In-Place-Aggregationen, regelbasierte Transformationen für MDM oder ML-Jobs unterstützen
- Spark-Anwendungen, die den Bigtable Spark-Connector für die Bigtable-Daten lesen
Nicht geeignet für
Punktlesevorgänge: Data Boost ist nicht die beste Option für Punktlesevorgänge. -Vorgängen, bei denen es sich um Leseanfragen handelt, die für einzelne Zeilen gesendet werden. Dazu gehören Punktlesevorgängen zusammengefasst sind. Aufgrund der Abrechnungsstruktur werden viele Punkte für einzelne Zeilen Lesevorgänge erheblich teurer als ein langer Scan.
Daten sofort nach dem Schreiben lesen: Wenn Sie Daten mit Data Boost lesen, werden möglicherweise nicht alle Daten gelesen, die in der letzten halben Stunde geschrieben wurden. Dies gilt insbesondere, wenn Ihre Instanz Replikation verwendet und Sie Daten lesen, die in einen Cluster geschrieben wurden, der sich in einer anderen Region befindet als Sie aus denen Daten gelesen werden. Weitere Informationen finden Sie unter Konsistenztokens
Latenzempfindliche Arbeitslasten: Data Boost ist für Durchsatz optimiert, sodass die Leselatenz bei Verwendung von Data Boost langsamer ist als beim Lesen mit Cluster und Knoten. Aus diesem Grund ist Data Boost nicht für Arbeitslasten geeignet, die für die Anwendungsbereitstellung erforderlich sind.
Weitere Informationen zu Arbeitslasten, Konfigurationen und Funktionen, die nicht mit Data Boost kompatibel sind, finden Sie unter Einschränkungen.
Data Boost-Anwendungsprofile
Wenn Sie Data Boost verwenden möchten, senden Sie Ihre Leseanfragen über ein Data Boost-Anwendungsprofil anstelle eines Standard-Anwendungsprofils.
Mit Standard-App-Profilen können Sie die Routingrichtlinie und die Prioritätsstufe für Anfragen angeben, für die das App-Profil verwendet wird. Außerdem können Sie festlegen, ob Transaktionen für einzelne Zeilen zulässig sind. Traffic, der mit einem Standard-App-Profil gesendet wird, wird an einen Cluster weitergeleitet. Die Knoten dieses Clusters leiten den Traffic dann auf die Festplatte weiter. Weitere Informationen finden Sie unter Standard-App-Profile.
Mit einem Data Boost-Anwendungsprofil konfigurieren Sie dagegen ein Single-Cluster-Routingrichtlinie zu einem der Cluster der Instanz und Traffic dieses Anwendungsprofils verwendet serverloses Computing anstelle der Knoten des Clusters.
Sie können ein neues Data Boost-Anwendungsprofil erstellen oder ein standardmäßiges App-Profil, um stattdessen Data Boost zu verwenden. Wir empfehlen die Verwendung eines Separates Anwendungsprofil für jede Arbeitslast oder Anwendung
Konsistenztokens
Daten, die mehr als 35 Mal in den Zielcluster geschrieben oder repliziert wurden Minuten, bevor Ihre Leseanfrage von Data Boost gelesen werden kann.
Sie können sicherstellen, dass die Daten aus einem bestimmten Schreibjob oder Zeitraum von Data Boost lesbar sein, bevor Sie einen Data Boost starten durch Erstellen und Verwenden eines Konsistenztoken Ein Beispiel für einen Workflow:
- Schreiben Sie einige Daten in eine Tabelle.
- Erstellen Sie ein Konsistenztoken.
- Senden Sie das Token im Modus
DataBoostReadLocalWrites
, um zu ermitteln, wann die Schreibvorgänge von Data Boost in Ihrem Zielcluster gelesen werden können.
Sie können optional die Replikationskonsistenz prüfen, bevor Sie Data Boost prüfen
Konsistenz, indem Sie zuerst ein Konsistenztoken im StandardReadRemoteWrites
-Modus senden.
Weitere Informationen finden Sie in der API-Referenz für CheckConsistencyRequest.
Kontingent und Abrechnung
Data Boost verwendet serverlose Verarbeitungseinheiten (SPUs), also unabhängige On-Demand-Rechenressourcen, um die Rechenleistung zu messen, die zum Lesen von Daten mit Data Boost verwendet wird. Im Gegensatz zu Knoten werden Ihnen SPUs nur in Rechnung gestellt, wenn wenn Sie sie verwenden. Jede Anfrage wird mindestens 60 SPU-Sekunden in Rechnung gestellt. werden mindestens 10 SPUs pro Sekunde berechnet. Weitere Informationen zu Data Boost finden Sie in Bigtable Preise.
Das zugewiesene Kontingent und die SPUs werden getrennt vom Kontingent und Gebühren für Knoten.
Berechtigungsmesswerte
Data Boost wurde für Scans mit hohem Durchsatz entwickelt. Arbeitslasten müssen kompatibel sein, damit Data Boost verwendet werden kann. Bevor Sie eine Standard-App konvertieren um Data Boost zu verwenden oder ein Data Boost-Anwendungsprofil für ein vorhandene Arbeitslast, Data Boost ansehen Eignungsmesswerten, um sicherzustellen, Konfiguration und Nutzung die erforderlichen Kriterien erfüllen. Sie sollten sich auch die Einschränkungen.
Monitoring
Um Ihren Data Boost-Traffic zu überwachen, können Sie die Messwerte für Ihre Data Boost-Anwendungsprofil auf der Bigtable Monitoring-Seite in der Google Cloud Console Eine Liste der Messwerte, die je nach App-Profil verfügbar sind, finden Sie unter Diagramme für Bigtable-Ressourcen überwachen.
Sie können die Nutzung von serverlosen Verarbeitungseinheiten (SPUs) überwachen, indem Sie
Messwert „Anzahl der SPUs“ (data_boost/spu_usage_count
) in
Metrics Explorer:
Du kannst auch weiterhin die Teilnahmevoraussetzungen Messwerte nach der Verwendung von Data Boost.
Beschränkungen
Die folgenden Arbeitslasteigenschaften und Ressourcenkonfigurationen werden für Data Boost nicht unterstützt.
- Schreib- und Löschvorgänge
- Traffic, der hauptsächlich aus Lesevorgängen besteht (einzeilige Lesevorgänge)
- Mehr als 1.000 Lesevorgänge pro Sekunde und Cluster
- Reverse-Scans
- Streams ändern
- Anfrageprioritäten
- Multi-Cluster-Routing
- Transaktionen für einzelne Zeilen
- Regionale Endpunkte
- HDD-Instanzen
- Instanzen, die die CMEK-Verschlüsselung verwenden
- Inkompatible Clientbibliotheken Sie müssen den Bigtable-Client für Java in der Version 2.31.0 oder höher verwenden.
- Für Dataflow-Jobs, bei denen Bigtable-Daten mit
BigtableIO
gelesen werden, müssen Sie Apache Beam Version 2.54.0 oder höher verwenden. - Damit Dataflow-Jobs, die
CloudBigtableIO
zum Lesen von Bigtable-Daten verwenden,bigtable-hbase-beam
in der Version 2.14.1 oder höher verwenden.
- Für Dataflow-Jobs, bei denen Bigtable-Daten mit
Folgendes wird für die Vorabversion nicht unterstützt.
- App-Profil für Data Boost in der Google Cloud Console erstellen und konfigurieren
- Bigtable-Daten aus BigQuery lesen
Nächste Schritte
- Erstellen oder aktualisieren Sie ein App-Profil.
- Weitere Informationen zum Bigtable Beam-Connector
- Verwenden Sie den Bigtable Spark-Connector.