Descripción general de Bigtable Data Boost

Data Boost es un servicio de procesamiento sin servidores diseñado para ejecutar trabajos de lectura de alta capacidad de procesamiento en los datos de Bigtable sin afectar el rendimiento de los clústeres que controlan el tráfico de la aplicación. Te permite enviar consultas y trabajos de lectura grandes mediante la computación sin servidores mientras tu aplicación principal continúa usando los nodos del clúster para el procesamiento. Los SKUs de Compute sin servidores y las tarifas de facturación son independientes de los SKUs y las tarifas de los nodos aprovisionados. No puedes enviar solicitudes de escritura ni de eliminación con Data Boost.

En este documento, se describe Data Boost y cuándo y cómo usarlo. Antes de leer esta página, debes comprender Instancias, clústeres y nodos.

Usos ideales

Data Boost es ideal para cargas de trabajo de análisis y procesamiento de datos. Aislar las estadísticas y el tráfico de procesamiento con Data Boost garantiza que no necesites ajustar la capacidad del clúster o el recuento de nodos para adaptarse a las cargas de trabajo de estadísticas. Puedes ejecutar tus trabajos de análisis de alta capacidad de procesamiento en un solo clúster con Data Boost, mientras el tráfico en curso de la aplicación se enruta a través de los nodos del clúster.

Los siguientes son casos de uso ideales para Data Boost:

  • Trabajos de canalización de exportación o ETL programados o activados de Bigtable a Cloud Storage para el enriquecimiento de datos, análisis, archivado, entrenamiento de modelos de AA sin conexión o transferencia por parte de los socios externos de tus clientes
  • ETL mediante una herramienta como Dataflow para procesos de análisis corto o lectura por lotes que admiten agregaciones in situ, transformaciones basadas en reglas para MDM o trabajos de AA

Usos no convenientes

Lecturas de puntos: Data Boost no es la mejor opción para las operaciones de lectura de puntos, que son solicitudes de lectura enviadas para filas individuales. Esto incluye las lecturas de puntos en lotes. Debido a la estructura de facturación, muchas lecturas de puntos de una sola fila son mucho más costosas que un análisis largo.

Lectura de datos inmediatamente después de escribirlos: Cuando lees datos con Data Boost, es posible que no leas todos los datos que se escribieron en la media hora más reciente. Esto es especialmente cierto si tu instancia usa la replicación y lees datos que se escribieron en un clúster en una región diferente de la que estás leyendo. Para obtener más información, consulta Coherencia.

Cargas de trabajo sensibles a la latencia: Data Boost está optimizado para la capacidad de procesamiento, por lo que la latencia de lectura es más lenta cuando usas Data Boost que cuando lees con clústeres y nodos. Por este motivo, Data Boost no es adecuado para cargas de trabajo que entregan aplicaciones.

Para obtener más información sobre las cargas de trabajo, las opciones de configuración y las funciones que no son compatibles con Data Boost, consulta Limitaciones.

Perfiles de la app de Data Boost

Para usar Data Boost, envía tus solicitudes de lectura con un perfil de app de Data Boost en lugar de un perfil de app estándar.

Los perfiles de app estándar te permiten especificar la política de enrutamiento y el nivel de prioridad para las solicitudes que usan el perfil de app, así como si se permiten las transacciones de una sola fila. El tráfico enviado con un perfil de app estándar se enruta a un clúster, y los nodos de ese clúster enrutan el tráfico al disco. Para obtener más información, consulta Descripción general de los perfiles de app estándar.

Por otro lado, con un perfil de app de Data Boost, configuras una política de enrutamiento de un solo clúster para uno de los clústeres de tu instancia, y el tráfico con ese perfil de app usa procesamiento sin servidores en lugar de los nodos del clúster.

Puedes crear un perfil nuevo de la app de Data Boost o convertir un perfil de la app estándar para usar Data Boost. Te recomendamos que uses un perfil de app independiente para cada carga de trabajo o aplicación.

Tokens de coherencia

Data Boost puede leer los datos que se escribieron o replicaron en tu clúster de destino más de 35 minutos antes de que tu solicitud de lectura.

Antes de iniciar una carga de trabajo de Data Boost, puedes asegurarte de que Data Boost pueda leer los datos de un trabajo de escritura o de un período específico. Para ello, crea y usa un token de coherencia. El siguiente es un flujo de trabajo de muestra:

  1. Escribir algunos datos en una tabla
  2. Crear un token de coherencia
  3. Envía el token en modo DataBoostReadLocalWrites para determinar cuándo Data Boost puede leer las escrituras en tu clúster de destino.

De manera opcional, puedes verificar la coherencia de la replicación antes de comprobar la de Data Boost. Para ello, envía primero un token de coherencia en modo StandardReadRemoteWrites.

Para obtener más información, consulta la referencia de la API de CheckConsistencyRequest.

Cuota y facturación

Data Boost usa unidades de procesamiento sin servidores (SPU), que son recursos de procesamiento independientes y a pedido, para medir la potencia de procesamiento que se usa para leer datos con Data Boost. A diferencia de lo que ocurre con los nodos, se te cobra por las SPU solo cuando los usas. Cada solicitud se factura por un mínimo de 60 SPU segundos, y se te cobran al menos 10 SPU por segundo. Para obtener más información sobre los precios de Data Boost, consulta Precios de Bigtable.

Se te asigna una cuota, y las SPU se facturan de forma independiente de la cuota, y se aplican cargos por los nodos.

Métricas de elegibilidad

Data Boost está diseñado para análisis de alta capacidad de procesamiento, y las cargas de trabajo deben ser compatibles para poder usar Data Boost. Antes de convertir un perfil de app estándar para usar Data Boost o crear uno para una carga de trabajo existente, consulta las métricas de elegibilidad de Data Boost para asegurarte de que la configuración y el uso cumplan con los criterios necesarios. También debes revisar las limitaciones.

Supervisión

Para supervisar el tráfico de Data Boost, puedes verificar las métricas del perfil de la app de Data Boost en la página de Bigtable Monitoring de la consola de Google Cloud. Para obtener una lista de las métricas disponibles por perfil de app, consulta Gráficos de supervisión de recursos de Bigtable.

Para supervisar el uso de unidades de procesamiento sin servidores (SPU), verifica la métrica del recuento de uso de SPU (data_boost/spu_usage_count) en el Explorador de métricas.

También puedes seguir supervisando las métricas de elegibilidad del perfil de app después de comenzar a usar Data Boost.

Limitaciones

Las siguientes propiedades de cargas de trabajo y parámetros de configuración de recursos no son compatibles con Data Boost.

  • Operaciones de escritura y eliminación
  • Tráfico que consta principalmente de lecturas puntuales (lecturas de una sola fila)
  • Más de 1,000 lecturas por segundo por clúster
  • Análisis inverso
  • Cambiar transmisiones
  • Prioridades de las solicitudes
  • Enrutamiento de varios clústeres
  • Transacciones de fila única
  • Extremos regionales
  • Instancias de HDD
  • Instancias que usan encriptación con CMEK
  • Bibliotecas cliente incompatibles Debes usar el cliente de Bigtable para Java versión 2.31.0 o posterior. Para los trabajos de Dataflow que leen datos de Bigtable, debes usar Apache Beam 2.54.0 o una versión posterior.

Lo siguiente no es compatible con la versión preliminar.

  • Creación y configuración del perfil de la app de Data Boost en la consola de Google Cloud
  • Cómo leer datos de Bigtable desde BigQuery o Spark

¿Qué sigue?