Présentation de Bigtable Data Boost

Data Boost est un service de calcul sans serveur conçu pour exécuter des charges de travail à haut débit lire des jobs sur vos données Bigtable sans affecter les performances du des clusters qui gèrent le trafic de votre application. Il vous permet d'envoyer des jobs de lecture volumineux à l'aide du calcul sans serveur, tandis que votre application principale continue à utiliser nœuds de cluster pour le calcul. Les SKU pour le calcul sans serveur et les tarifs distincts des SKU et des tarifs des nœuds provisionnés. Vous ne pouvez pas envoyer d’écriture ou de suppression avec Data Boost.

Ce document décrit Data Boost, et explique quand et comment l'utiliser. Avant de lire cette page, vous devez avoir compris les instances, les clusters et nœuds.

Points forts

Data Boost est idéal pour les charges de travail d'analyse et de traitement des données. L'isolation du trafic d'analyse et de traitement avec Data Boost vous permet de vous assurer vous n'avez pas besoin d'ajuster la capacité ou le nombre de nœuds d'un cluster pour l'adapter charges de travail d'analyse de données. Vous pouvez exécuter vos jobs d'analyse à haut débit cluster unique avec Data Boost lorsque le trafic actuel de votre application est sont acheminées via des nœuds de cluster.

Voici des cas d'utilisation idéaux pour Data Boost:

  • Exportations programmées ou déclenchées, ou jobs de pipeline ETL à partir de Bigtable vers Cloud Storage pour enrichir, analyser, l'archivage de données, l'entraînement de modèles de ML hors connexion ou l'ingestion par vos clients partenaires tiers
  • ETL à l'aide d'un outil tel que Dataflow pour une analyse courte ou des processus de lecture par lot compatibles avec les agrégations sur place, pour les jobs MDM ou ML

Points faibles

Lecture de points : l'optimisation de données n'est pas la meilleure option pour la lecture de points. qui sont des requêtes de lecture envoyées pour des lignes uniques. Cela inclut par lots. En raison de la structure de facturation, de nombreux points à ligne unique les lectures sont considérablement plus chères qu'une analyse longue.

Lecture des données immédiatement après leur écriture : lorsque vous lisez des données avec Data Boost, il est possible que vous ne puissiez pas lire toutes les données demi-heure. Cela est particulièrement vrai si votre instance utilise la réplication de lire des données écrites sur un cluster situé dans une région différente de celle où vous vous trouvez. de lecture. Pour en savoir plus, consultez Cohérence.

Charges de travail sensibles à la latence : Data Boost est optimisé pour le débit. Par conséquent, la latence de lecture est plus lente avec Data Boost que lorsque vous lisez avec vos clusters et nœuds. Pour cette raison, Data Boost n'est pas adapté aux les charges de travail de livraison d'applications.

Pour en savoir plus sur les charges de travail, configurations et fonctionnalités non compatible avec Data Boost, consultez la section Limites.

Profils d'application Data Boost

Pour utiliser Data Boost, vous devez envoyer vos requêtes de lecture à l'aide d'une application Data Boost profil au lieu d'un profil d'application standard.

Les profils d'application standards vous permettent de spécifier règle de routage et niveau de priorité pour les requêtes utilisant le profil d'application, et si des requêtes à ligne unique transactions sont autorisées. Le trafic envoyé à l'aide d'un profil d'application standard est acheminé vers un cluster, où les nœuds de ce cluster acheminent le trafic vers le disque. Pour plus pour en savoir plus, consultez Présentation des profils d'application standards

En revanche, avec un profil d'application Data Boost, vous configurez une règle de routage à cluster unique vers l'un des clusters de votre instance, et le trafic ce profil d'application utilise l'informatique sans serveur au lieu des nœuds du cluster.

Vous pouvez créer un profil d'application Data Boost ou convertir un profil d'utiliser Data Boost à la place. Nous vous recommandons d'utiliser profil d'application distinct pour chaque charge de travail ou application.

Jetons de cohérence

Données écrites ou répliquées sur votre cluster cible plus de 35 Go minutes avant que votre requête de lecture ne soit lisible par Data Boost.

Vous pouvez vous assurer que les données d'une tâche d'écriture ou d'une période spécifique sont lisible par Data Boost, avant d'initier une optimisation charge de travail spécifique, en créant et en utilisant jeton de cohérence. Voici un exemple de workflow:

  1. Écrire des données dans une table
  2. Créez un jeton de cohérence.
  3. Envoyez le jeton en mode DataBoostReadLocalWrites pour déterminer quand sont lisibles par Data Boost sur votre cluster cible.

Vous pouvez éventuellement vérifier la cohérence de la réplication avant de vérifier Data Boost la cohérence en envoyant d'abord un jeton de cohérence en mode StandardReadRemoteWrites.

Pour en savoir plus, consultez la documentation de référence de l'API CheckConsistencyRequest.

Quotas et facturation

Data Boost utilise des SPU (unités de traitement sans serveur), indépendantes et des ressources de calcul à la demande, pour mesurer la puissance de calcul utilisée pour lire avec Data Boost. Contrairement aux nœuds, les SPU vous sont facturés uniquement lorsque vous les utilisez. Chaque requête est facturée pour un minimum de 60 SPU-seconde, et vous sont facturés au moins 10 SPU par seconde. En savoir plus sur Data Boost consultez la section Bigtable pricing.

Les SPU vous sont alloués et vous sont facturés séparément du quota. les frais associés aux nœuds.

Métriques d'éligibilité

Data Boost est conçu pour les analyses à haut débit. Les charges de travail doivent pour pouvoir utiliser Data Boost. Avant de convertir une application standard pour utiliser Data Boost ou créer un profil d'application charge de travail existante, accédez à Data Boost les métriques d'éligibilité pour vérifier leur configuration et leur utilisation répondent aux critères requis. Vous devez également consulter les Limites.

Surveillance

Pour surveiller le trafic Data Boost, vous pouvez consulter les métriques de votre Profil d'application Data Boost sur la page Bigtable Monitoring dans le console Google Cloud. Pour obtenir la liste des métriques disponibles par profil d'application, consultez Surveiller des graphiques pour les ressources Bigtable

Vous pouvez surveiller votre utilisation des processeurs sans serveur (SPU) en vérifiant la métrique "Nombre d'utilisations de SPU" (data_boost/spu_usage_count) dans Explorateur de métriques :

Vous pouvez également continuer de surveiller l'éligibilité métriques pour le profil d'application après avoir commencé à utiliser Data Boost.

Limites

Les propriétés de charge de travail et les configurations de ressources suivantes ne sont pas compatibles pour Data Boost.

  • Écritures et suppressions
  • Trafic principalement constitué de lectures de points (lectures à une seule ligne)
  • Plus de 1 000 lectures par seconde et par cluster
  • Recherches inversées
  • Modifier les flux
  • Priorités des demandes
  • Routage multi-cluster
  • Transactions à ligne unique
  • Points de terminaison régionaux
  • Instances HDD
  • Instances utilisant le chiffrement CMEK
  • Bibliothèques clientes incompatibles. Vous devez utiliser le Client Bigtable pour Java version 2.31.0 ou ultérieure.
    • Pour que les jobs Dataflow utilisant BigtableIO lisent des données Bigtable, vous devez utiliser Apache Beam 2.54.0 ou une version ultérieure.
    • Pour que les jobs Dataflow utilisant CloudBigtableIO lisent des données Bigtable, vous devez utiliser bigtable-hbase-beam version 2.14.1 ou ultérieure.

Les éléments suivants ne sont pas compatibles avec la version preview.

  • Création et configuration d'un profil d'application Data Boost dans la console Google Cloud
  • Lire des données Bigtable à partir de BigQuery ou Spark

Étape suivante