Descripción general de Bigtable Data Boost

Data Boost es un servicio de procesamiento sin servidores diseñado para ejecutar trabajos de lectura de alta capacidad de procesamiento en tus datos de Bigtable sin afectar el rendimiento de los clústeres que controlan el tráfico de tus aplicaciones. Te permite enviar grandes trabajos de lectura y consultas con computación sin servidores mientras tu aplicación principal continúa usando nodos del clúster para procesamiento. Los SKU de procesamiento sin servidores y las tarifas de facturación son independientes de los SKU y las tarifas de los nodos aprovisionados. No puedes enviar solicitudes de escritura ni borrar con Data Boost.

En este documento, se describe Data Boost, cuándo y cómo usarlo. Antes de leer esta página, debes comprender las instancias, los clústeres y los nodos.

Usos ideales

Data Boost es ideal para cargas de trabajo de análisis y procesamiento de datos. Aislar el tráfico de estadísticas y procesamiento con Data Boost garantiza que no tengas que ajustar la capacidad de un clúster o el recuento de nodos para adaptarse a las cargas de trabajo de estadísticas. Puedes ejecutar tus trabajos de estadísticas de alta capacidad de procesamiento en un solo clúster con Data Boost mientras el tráfico en curso de la aplicación se enruta a través de los nodos del clúster.

Los siguientes son casos de uso ideales de Data Boost:

  • Trabajos de canalización de ETL programados o activados de Bigtable a Cloud Storage para el enriquecimiento de datos, análisis, archivo, entrenamiento de modelos de AA sin conexión o transferencia por parte de socios externos de tus clientes
  • ETL con una herramienta como Dataflow para análisis breves o procesos de lectura por lotes que admiten agregaciones locales, transformaciones basadas en reglas para MDM o trabajos de AA

Usos no convenientes

Lecturas puntuales: Data Boost no es la mejor opción para las operaciones de lectura de puntos, que son solicitudes de lectura enviadas para filas individuales. Esto incluye las lecturas puntuales por lotes. Debido a la estructura de facturación, muchas lecturas puntuales de una sola fila son considerablemente más costosas que un análisis largo.

Lectura de datos inmediatamente después de la escritura: Cuando lees datos con Data Boost, es posible que no leas todos los datos que se escribieron en la media hora más reciente. Esto se aplica en especial si tu instancia usa la replicación y lees datos que se escribieron en un clúster en una región diferente de la que estás leyendo. Para obtener más información, consulta Coherencia.

Cargas de trabajo sensibles a la latencia: Data Boost está optimizado para la capacidad de procesamiento, por lo que la latencia de lectura es más lenta cuando usas Data Boost que cuando lees con clústeres y nodos. Por este motivo, Data Boost no es adecuado para cargas de trabajo de entrega de aplicaciones.

Para obtener más información sobre las cargas de trabajo, los parámetros de configuración y las funciones que no son compatibles con Data Boost, consulta Limitaciones.

Perfiles de apps de Data Boost

Para usar Data Boost, envía tus solicitudes de lectura con un perfil de app de Data Boost, en lugar de un perfil de app estándar.

Los perfiles de app estándar te permiten especificar la política de enrutamiento y el nivel de prioridad para las solicitudes que usan el perfil de la app, así como si se permiten las transacciones de una sola fila. El tráfico que se envía con un perfil de app estándar se enruta a un clúster, y los nodos de ese clúster lo enrutan al disco. Para obtener más información, consulta Descripción general de los perfiles de app estándar.

Por otro lado, con un perfil de app de Data Boost, configuras una política de enrutamiento de un solo clúster a uno de los clústeres de tu instancia, y el tráfico que usa ese perfil de app usa computación sin servidores en lugar de los nodos del clúster.

Puedes crear un nuevo perfil de app de Data Boost o convertir un perfil de app estándar para usar Data Boost en su lugar. Recomendamos usar un perfil de app diferente para cada carga de trabajo o aplicación.

Tokens de coherencia

Data Boost puede leer los datos que se escribieron o replicaron en tu clúster de destino más de 35 minutos antes de que tu solicitud de lectura sea legible.

Para asegurarte de que Data Boost pueda leer los datos de un trabajo de escritura o período específico, antes de iniciar una carga de trabajo de Data Boost, puedes crear y usar un token de coherencia. El siguiente es un ejemplo de flujo de trabajo:

  1. Escribir algunos datos en una tabla
  2. Crear un token de coherencia
  3. Envía el token en modo DataBoostReadLocalWrites para determinar cuándo Data Boost puede leer las escrituras en tu clúster de destino.

De manera opcional, puedes verificar la coherencia de la replicación antes de comprobar la coherencia de Data Boost; para ello, envía primero un token de coherencia en modo StandardReadRemoteWrites.

Si deseas obtener más información, consulta la referencia de la API para CheckConsistencyRequest.

Cuota y facturación

Data Boost usa unidades de procesamiento sin servidores (SPU), recursos de procesamiento independientes y a pedido, para medir la potencia de procesamiento que se usa para leer datos con Data Boost. A diferencia de lo que ocurre con los nodos, se te cobra por las SPU solo cuando las usas. Cada solicitud se factura por un mínimo de 60 SPU por segundo, y se te cobran al menos 10 SPU por segundo. Para obtener más información sobre los precios de Data Boost, consulta los precios de Bigtable.

Se te asigna una cuota y se te factura por las SPU por separado de la cuota y los cargos por los nodos.

Métricas de elegibilidad

Data Boost está diseñado para análisis de alta capacidad de procesamiento, y las cargas de trabajo deben ser compatibles para poder usar Data Boost. Antes de convertir un perfil de app estándar para usar Data Boost o crear uno para una carga de trabajo existente, consulta las métricas de elegibilidad de Data Boost para asegurarte de que la configuración y el uso cumplan con los criterios requeridos. También debes revisar las limitaciones.

Supervisión

Para supervisar el tráfico de Data Boost, puedes verificar las métricas del perfil de tu app de Data Boost en la página de supervisión de Bigtable en la consola de Google Cloud. Para obtener una lista de las métricas disponibles por perfil de app, consulta Gráficos de supervisión de recursos de Bigtable.

Puedes supervisar el uso de unidades de procesamiento sin servidores (SPU) si verificas la métrica de recuento de uso de SPU (data_boost/spu_usage_count) en el Explorador de métricas.

También puedes seguir supervisando las métricas de elegibilidad del perfil de la app después de que comiences a usar Data Boost.

Limitaciones

Las siguientes propiedades de carga de trabajo y parámetros de configuración de recursos no son compatibles con Data Boost.

  • Operaciones de escritura y eliminación
  • Tráfico que está compuesto principalmente de lecturas puntuales (lecturas de una sola fila)
  • Más de 1,000 lecturas por segundo por clúster
  • Análisis inversos
  • Cambiar transmisiones
  • Prioridades de las solicitudes
  • Enrutamiento de varios clústeres
  • Transacciones de fila única
  • Extremos regionales
  • Instancias de HDD
  • Instancias que usan encriptación CMEK
  • Bibliotecas cliente incompatibles. Debes usar el cliente de Bigtable para Java versión 2.31.0 o posterior.
    • En los trabajos de Dataflow que usan BigtableIO para leer datos de Bigtable, debes usar la versión 2.54.0 de Apache Beam o una posterior.
    • En los trabajos de Dataflow que usan CloudBigtableIO para leer datos de Bigtable, debes usar la versión 2.14.1 de bigtable-hbase-beam o una posterior.

Las siguientes características no son compatibles con la Versión preliminar.

  • Creación y configuración de perfiles de apps de Data Boost en la consola de Google Cloud
  • Lee datos de Bigtable desde BigQuery o Spark

¿Qué sigue?