Descripción general de Bigtable Data Boost

Data Boost es un servicio de computación sin servidores diseñado para ejecutar una alta capacidad de procesamiento leer trabajos en tus datos de Bigtable sin afectar el rendimiento de la clústeres que controlan el tráfico de tu aplicación. Te permite enviar trabajos de lectura y consultas grandes con procesamiento sin servidor mientras tu aplicación principal sigue usando nodos de clúster para el procesamiento. Los SKU de computación sin servidores y las tarifas de facturación son de los SKU y las tarifas de los nodos aprovisionados. No puedes enviar solicitudes de escritura ni eliminación con Data Boost.

En este documento, se describe Data Boost y cuándo y cómo usarlo que la modifica. Antes de leer esta página, debes comprender las instancias, los clústeres y nodos.

Usos ideales

Data Boost es ideal para cargas de trabajo de análisis y procesamiento de datos. El aislamiento de tus estadísticas y el procesamiento del tráfico con el aumento de datos garantiza que no necesites ajustar la capacidad o el recuento de nodos de un clúster para admitir cargas de trabajo de estadísticas. Puedes ejecutar tus trabajos de análisis de alta capacidad de procesamiento en un clúster único con Data Boost mientras el tráfico en curso de tu aplicación se enrutan a través de nodos del clúster.

Los siguientes son casos de uso ideales de Data Boost:

  • Trabajos de canalización de ETL o exportación programados o activados desde Bigtable a Cloud Storage para el enriquecimiento y análisis de datos el archivado, el entrenamiento de modelos de AA sin conexión o la transferencia por parte de socios externos
  • ETL con una herramienta como Dataflow para procesos de análisis breves o de lectura por lotes que admitan agregaciones in situ, transformaciones basadas en reglas para MDM o trabajos de AA
  • Aplicaciones de Spark que usen el conector de Spark de Bigtable para leer datos de Bigtable

Usos no convenientes

Lecturas de puntos: Data Boost no es la mejor opción para la lectura de puntos. que son solicitudes de lectura enviadas para filas individuales. Esto incluye lecturas de puntos por lotes. Debido a la estructura de facturación, muchos puntos de acceso de lectura son mucho más costosos que un análisis largo.

Lectura de datos inmediatamente después de escribirlos: Cuando lees datos con con Data Boost, es posible que no leas todos los datos que se escribieron en la versión más reciente media hora. Esto es especialmente cierto si tu instancia usa la replicación y leyendo los datos que se escribieron en un clúster en una región diferente a la tuya leer. Para obtener más información, consulta Tokens de coherencia:

Cargas de trabajo sensibles a la latencia: Data Boost está optimizado para la capacidad de procesamiento. por lo que la latencia de lectura es más lenta cuando usas Data Boost que cuando lees con clústeres y nodos. Por este motivo, Data Boost no es adecuado para cargas de trabajo de entrega de aplicaciones.

Para obtener más información sobre las cargas de trabajo, los parámetros de configuración y las funciones que se no es compatible con Data Boost, consulta Limitaciones.

Perfiles de app de Data Boost

Para usar Data Boost, envía tus solicitudes de lectura con una app de Data Boost de aplicación en lugar de un perfil de app estándar.

Los perfiles de app estándar te permiten especificar política de enrutamiento y nivel de prioridad para solicitudes que usan el perfil de app, y también si se admiten se permiten las transacciones. El tráfico que se envía con un perfil de app estándar se enruta y los nodos de ese clúster enrutan el tráfico al disco. Para ver más información, consulta Descripción general de los perfiles de app estándar.

Por otro lado, con un perfil de app de Data Boost, configuras un de un solo clúster a uno de los clústeres de tu instancia y el tráfico con ese perfil de app usa computación sin servidores, en lugar de los nodos del clúster.

Puedes crear un nuevo perfil de la app de Data Boost o convertir un estándar perfil de app para usar Data Boost. Te recomendamos que uses un perfil de app independiente para cada carga de trabajo o aplicación.

Tokens de coherencia

Los datos que se escribieron o replicaron en tu clúster de destino más de 35 minutos antes de que Data Boost pueda leer tu solicitud de lectura.

Puedes asegurarte de que los datos de un trabajo de escritura o período de tiempo específico legible por Data Boost, antes de iniciar una Data Boost la carga de trabajo, a través de la creación y el uso de token de coherencia. El siguiente es un ejemplo de flujo de trabajo:

  1. Escribir algunos datos en una tabla
  2. Crear un token de coherencia
  3. Envía el token en modo DataBoostReadLocalWrites para determinar cuándo Data Boost puede leer las escrituras en tu clúster de destino.

De manera opcional, puedes verificar la coherencia de la replicación antes de verificar la coherencia de Data Boost. Para ello, primero envía un token de coherencia en el modo StandardReadRemoteWrites.

Para obtener más información, consulta la referencia de la API para CheckConsistencyRequest.

Cuota y facturación

Data Boost usa unidades de procesamiento sin servidores (SPU): a pedido, para medir la potencia de procesamiento que se usa para leer con Data Boost. A diferencia de lo que ocurre con los nodos, solo se te cobra por SPU cuando cuando los uses. Cada solicitud se factura por un mínimo de 60 SPU-segundos, se cobran al menos 10 SPU por segundo. Más información sobre Data Boost consulta Bigtable, precios.

Se te asigna una cuota y se te factura por las SPU por separado de la cuota y cargos por los nodos.

Métricas de elegibilidad

Data Boost está diseñado para análisis de alta capacidad de procesamiento, y las cargas de trabajo se deben para poder usar Data Boost. Antes de convertir una app estándar perfil para usar Data Boost o crear un perfil de app de Data Boost para una carga de trabajo existente, consulta Data Boost de elegibilidad para asegurarte de que tu configuración y uso cumplan los criterios requeridos. También debes revisar el limitaciones.

Supervisión

Para supervisar el tráfico de Data Boost, puedes consultar las métricas de tu Perfil de la app de Data Boost en la página de supervisión de Bigtable en Consola de Google Cloud Para obtener una lista de las métricas disponibles por perfil de aplicación, consulta Gráficos de supervisión de recursos de Bigtable.

Puedes supervisar el uso de unidades de procesamiento sin servidores (SPU) verificando la métrica Recuento de uso de SPU (data_boost/spu_usage_count) en Explorador de métricas.

También puedes seguir supervisando los requisitos de métricas para el perfil de la app una vez que comiences a usar Data Boost.

Limitaciones

No se admiten las siguientes propiedades de cargas de trabajo ni parámetros de configuración de recursos para Data Boost.

  • Operaciones de escritura y eliminación
  • Tráfico que está compuesto principalmente de lecturas puntuales (lecturas de una sola fila)
  • Más de 1,000 lecturas por segundo por clúster
  • Análisis inversos
  • Cambiar transmisiones
  • Prioridades de solicitud
  • Enrutamiento de varios clústeres
  • Transacciones de fila única
  • Extremos regionales
  • Instancias de HDD
  • Instancias que usan encriptación CMEK
  • Bibliotecas cliente incompatibles. Debes usar la Cliente de Bigtable para Java versión 2.31.0 o posterior.
    • En los trabajos de Dataflow que usan BigtableIO para leer datos de Bigtable, debes usar la versión 2.54.0 de Apache Beam o una posterior.
    • Para los trabajos de Dataflow que usan CloudBigtableIO para leer datos de Bigtable, debes usar la versión 2.14.1 o una posterior de bigtable-hbase-beam.

Las siguientes características no son compatibles con la Versión preliminar.

  • Creación y configuración de perfiles de apps de Data Boost en la consola de Google Cloud
  • Lee datos de Bigtable en BigQuery

¿Qué sigue?