Présentation de Data Boost dans Bigtable

Data Boost est un service de calcul sans serveur conçu pour exécuter des charges de travail à haut débit lire des jobs sur vos données Bigtable sans affecter les performances du des clusters qui gèrent le trafic de votre application. Il vous permet d'envoyer des jobs de lecture volumineux à l'aide du calcul sans serveur, tandis que votre application principale continue à utiliser nœuds de cluster pour le calcul. Les SKU et les tarifs de facturation du calcul sans serveur sont distincts des SKU et des tarifs des nœuds provisionnés. Vous ne pouvez pas envoyer de requêtes d'écriture ni de suppression avec Data Boost.

Ce document décrit Data Boost, et explique quand et comment l'utiliser. pour l'activer. Avant de lire cette page, vous devez avoir compris les instances, les clusters et nœuds.

Points forts

Data Boost est idéal pour les charges de travail d'analyse et de traitement des données. L'isolation du trafic d'analyse et de traitement avec Data Boost vous permet de vous assurer vous n'avez pas besoin d'ajuster la capacité ou le nombre de nœuds d'un cluster pour l'adapter charges de travail d'analyse de données. Vous pouvez exécuter vos jobs d'analyse à haut débit cluster unique avec Data Boost lorsque le trafic continu de votre application sont acheminées via des nœuds de cluster.

Voici les cas d'utilisation idéaux pour Data Boost :

  • Exportations programmées ou déclenchées, ou jobs de pipeline ETL à partir de Bigtable vers Cloud Storage pour enrichir, analyser, l'archivage de données, l'entraînement de modèles de ML hors connexion ou l'ingestion par vos clients partenaires tiers
  • ETL à l'aide d'un outil tel que Dataflow pour les processus d'analyse rapide ou de lecture par lot compatibles avec les agrégations sur place, les transformations basées sur des règles pour le MDM ou les tâches de ML
  • Applications Spark qui utilisent le connecteur Spark Bigtable pour lire les données Bigtable

Points faibles

Lectures ponctuelles : Data Boost n'est pas la meilleure option pour les opérations de lecture ponctuelle, qui sont des requêtes de lecture envoyées pour des lignes individuelles. Cela inclut les lectures de points groupées. En raison de la structure de facturation, de nombreux points à ligne unique les lectures sont considérablement plus chères qu'une analyse longue.

Lire les données immédiatement après leur écriture : lorsque vous lisez des données avec Data Boost, vous ne pouvez pas lire toutes les données écrites au cours de la demi-heure la plus récente. Cela est particulièrement vrai si votre instance utilise la réplication et que vous lisez des données écrites dans un cluster situé dans une région différente de celle à partir de laquelle vous lisez. Pour en savoir plus, consultez la section Jetons de cohérence.

Charges de travail sensibles à la latence : Data Boost est optimisé pour le débit. Par conséquent, la latence de lecture est plus lente lorsque vous utilisez Data Boost que lorsque vous effectuez des lectures à l'aide de clusters et de nœuds. Par conséquent, Data Boost n'est pas adapté aux les charges de travail de livraison d'applications.

Pour en savoir plus sur les charges de travail, les configurations et les fonctionnalités non compatibles avec Data Boost, consultez la section Limites.

Profils d'application Data Boost

Pour utiliser Data Boost, vous envoyez vos requêtes de lecture à l'aide d'un profil d'application Data Boost au lieu d'un profil d'application standard.

Les profils d'application standards vous permettent de spécifier les règles de routage et le niveau de priorité pour les requêtes qui utilisent le profil d'application, ainsi que si les transactions à ligne unique sont autorisées. Le trafic envoyé à l'aide d'un profil d'application standard est acheminé vers un cluster, et les nœuds de ce cluster acheminent le trafic vers le disque. Pour plus pour en savoir plus, consultez Présentation des profils d'application standards

En revanche, avec un profil d'application Data Boost, vous configurez une stratégie de routage à cluster unique sur l'un des clusters de votre instance. Le trafic utilisant ce profil d'application utilise l'informatique sans serveur au lieu des nœuds du cluster.

Vous pouvez créer un profil d'application Data Boost ou convertir un profil d'application standard pour utiliser Data Boost à la place. Nous vous recommandons d'utiliser un profil d'application distinct pour chaque charge de travail ou application.

Jetons de cohérence

Données écrites ou répliquées sur votre cluster cible plus de 35 Go minutes avant que votre requête de lecture ne soit lisible par Data Boost.

Vous pouvez vous assurer que les données d'une tâche d'écriture ou d'une période spécifique sont lisible par Data Boost, avant d'initier une optimisation charge de travail spécifique, en créant et en utilisant jeton de cohérence. Voici un exemple de workflow:

  1. Écrivez des données dans une table.
  2. Créez un jeton de cohérence.
  3. Envoyez le jeton en mode DataBoostReadLocalWrites pour déterminer quand les écritures sont lisibles par Data Boost sur votre cluster cible.

Vous pouvez éventuellement vérifier la cohérence de la réplication avant de vérifier la cohérence de Data Boost en envoyant d'abord un jeton de cohérence en mode StandardReadRemoteWrites.

Pour en savoir plus, consultez la documentation de référence de l'API pour CheckConsistencyRequest.

Quotas et facturation

Data Boost utilise des SPU (unités de traitement sans serveur), indépendantes et des ressources de calcul à la demande, pour mesurer la puissance de calcul utilisée pour lire avec Data Boost. Contrairement aux nœuds, les SPU vous sont facturés uniquement lorsque vous les utilisez. Chaque requête est facturée pour un minimum de 60 SPU-seconde, et vous sont facturés au moins 10 SPU par seconde. En savoir plus sur Data Boost consultez la section Bigtable tarifs.

Un quota vous est alloué et les SPU vous sont facturés séparément du quota et des frais de nœuds.

Métriques d'éligibilité

Data Boost est conçu pour les analyses à haut débit. Les charges de travail doivent pour pouvoir utiliser Data Boost. Avant de convertir une application standard pour utiliser Data Boost ou créer un profil d'application charge de travail existante, accédez à Data Boost les métriques d'éligibilité pour vérifier leur configuration et leur utilisation répondent aux critères requis. Vous devez également consulter les limites.

Surveillance

Pour surveiller le trafic Data Boost, vous pouvez consulter les métriques Profil d'application Data Boost sur la page Bigtable Monitoring dans le console Google Cloud. Pour obtenir la liste des métriques disponibles par profil d'application, consultez Surveiller des graphiques pour les ressources Bigtable

Vous pouvez surveiller votre utilisation des unités de traitement sans serveur (SPU) en vérifiant la métrique "Nombre d'utilisations de SPU" (data_boost/spu_usage_count) dans Explorateur de métriques :

Vous pouvez également continuer de surveiller l'éligibilité métriques pour le profil d'application après avoir commencé à utiliser Data Boost.

Limites

Les propriétés de charge de travail et les configurations de ressources suivantes ne sont pas compatibles avec Data Boost.

  • Écritures et suppressions
  • Trafic composé principalement de lectures ponctuelles (lectures sur une seule ligne)
  • Plus de 1 000 lectures par seconde et par cluster
  • Recherches inversées
  • Modifier les flux
  • Priorités des requêtes
  • Routage multi-cluster
  • Transactions à ligne unique
  • Points de terminaison régionaux
  • Instances HDD
  • Instances utilisant le chiffrement CMEK
  • Bibliothèques clientes incompatibles. Vous devez utiliser la classe Client Bigtable pour Java version 2.31.0 ou ultérieure.
    • Pour que les jobs Dataflow utilisant BigtableIO lisent des données Bigtable, vous devez utiliser Apache Beam 2.54.0 ou une version ultérieure.
    • Pour les tâches Dataflow qui utilisent CloudBigtableIO pour lire les données Bigtable, vous devez utiliser bigtable-hbase-beam version 2.14.1 ou ultérieure.

Les éléments suivants ne sont pas compatibles avec la version preview.

  • Créer et configurer un profil d'application Data Boost dans la console Google Cloud
  • Lire des données Bigtable depuis BigQuery

Étape suivante