Instancias, clústeres y nodos

Para usar Cloud Bigtable, debes crear instancias que contengan hasta 4 clústeres a los que puedan conectarse tus aplicaciones. Cada clúster contiene nodos, las unidades de procesamiento que administran los datos y ejecutan las tareas de mantenimiento.

En esta página, encontrarás más información sobre las instancias, los clústeres y los nodos de Cloud Bigtable.

Antes de leer esta página, debes familiarizarte con la descripción general de Cloud Bigtable.

Instancias

Una instancia de Cloud Bigtable es un contenedor de tus datos. Las instancias tienen uno o más clústeres, ubicados en diferentes zonas. Cada clúster tiene al menos 1 nodo.

Las tablas pertenecen a las instancias, no a los clústeres o nodos. Si tienes una instancia con más de un clúster, estás usando la replicación. Esto significa que no puedes asignar una tabla a un clúster individual ni crear políticas de recolección de elementos no utilizados únicas para cada clúster de una instancia. Tampoco puedes hacer que cada clúster almacene un conjunto de datos distinto en la misma tabla.

Las instancias tienen algunas propiedades importantes que es necesario conocer, como las siguientes:

  • El tipo de almacenamiento (SSD o HDD)
  • Los perfiles de aplicaciones, destinados a las instancias que usan la replicación

Estas propiedades se describen con más detalle en las siguientes secciones.

Tipos de almacenamiento

Cuando creas una instancia, debes elegir si sus clústeres almacenarán datos en unidades de estado sólido (SSD) o unidades de disco duro (HDD). A menudo, las SSD son la elección más eficiente y rentable, pero no siempre.

La elección entre SSD y HDD es permanente, y todos los clústeres de la instancia deben usar el mismo tipo de almacenamiento, así que asegúrate de elegir el tipo de almacenamiento adecuado para tu caso práctico. Si deseas obtener más información para tomar una decisión, consulta Elige entre el almacenamiento SSD y HDD.

Perfiles de aplicaciones

Después de crear una instancia, Cloud Bigtable la usa para almacenar perfiles de aplicaciones o perfiles de apps. En las instancias que usan la replicación, los perfiles de apps controlan cómo se conectan las aplicaciones a los clústeres de la instancia.

Si tu instancia no usa la replicación, puedes usar los perfiles de apps para asignar identificadores distintos a cada una de las aplicaciones o a cada función dentro de una aplicación; luego, puedes ver gráficos de cada perfil de app en Cloud Console.

Si quieres obtener más información sobre los perfiles de apps, consulta Perfiles de aplicaciones. Para obtener información sobre cómo configurar los perfiles de apps de una instancia, consulta Configura perfiles de apps.

Clústeres

Un clúster representa el servicio de Cloud Bigtable en una ubicación específica. Cada clúster pertenece a una instancia de Cloud Bigtable, que puede tener hasta 4 clústeres. Cuando la aplicación envía solicitudes a una instancia de Cloud Bigtable, uno de los clústeres de la instancia controla esas solicitudes.

Cada clúster se encuentra en una sola zona. Los clústeres de una instancia deben estar en zonas únicas. Puedes crear un clúster adicional en cualquier zona en la que Cloud Bigtable esté disponible. Por ejemplo, si el primer clúster está en us-east1-b, puedes elegir una zona diferente en la misma región, como us-east1-c, o una zona en una región distinta, como europe-west2-a. Para obtener una lista de las zonas y regiones en las que está disponible Cloud Bigtable, consulta Ubicaciones de Cloud Bigtable.

Las instancias de Cloud Bigtable que tienen solo 1 clúster no usan la replicación. Si agregas un segundo clúster a una instancia, Cloud Bigtable comienza a replicar los datos de forma automática; para hacerlo, mantiene copias independientes de los datos en cada una de las zonas de los clústeres y sincroniza las actualizaciones entre las copias. Puedes elegir a qué clúster se conectan las aplicaciones, lo que permite aislar los diferentes tipos de tráfico entre sí. También puedes permitir que Cloud Bigtable balancee el tráfico entre los clústeres. Si un clúster deja de estar disponible, puedes realizar la conmutación por error de un clúster a otro. Si quieres obtener más información sobre el funcionamiento de la replicación, consulta la Descripción general de la replicación.

Nodos

Cada clúster de una instancia tiene 1 o más nodos, que son recursos de procesamiento que Cloud Bigtable usa para administrar los datos.

En segundo plano, Cloud Bigtable divide todos los datos de una tabla en tablets independientes. Estos se almacenan en el disco, separadas de los nodos, pero en la misma zona. Cada tablet se asocia con un solo nodo.

Los nodos son responsables de lo siguiente:

  • Mantener un seguimiento de los tablets específicos en el disco
  • Manejar las lecturas y escrituras entrantes para sus tablets
  • Realizar tareas de mantenimiento en sus tablets, como compactaciones periódicas.

Un clúster debe tener suficientes nodos para admitir su carga de trabajo actual y la cantidad de datos que almacena. De lo contrario, es posible que el clúster no pueda administrar las solicitudes entrantes, y la latencia aumente. Supervisa el uso de CPU y disco de los clústeres y agrega nodos a una instancia cuando las métricas excedan las recomendaciones y los límites que se indican a continuación.

Si quieres obtener más información sobre cómo Cloud Bigtable almacena y administra los datos, consulta Arquitectura de Cloud Bigtable.

Uso de CPU

Cloud Bigtable informa las siguientes métricas sobre el uso de CPU:

Métrica Descripción
Uso de CPU promedio

El uso de CPU promedio de todos los nodos del clúster.

Los valores máximos recomendados proporcionan espacio para picos breves en el uso.

Si un clúster supera el valor máximo recomendado para tu configuración durante algo más que unos pocos minutos, agrégale nodos al clúster.

Uso de CPU del nodo más activo

El uso de CPU del nodo más activo del clúster.

Si, a menudo, el nodo más activo se encuentra por encima del valor recomendado, incluso cuando el uso de CPU promedio es razonable, es posible que estés accediendo a una porción pequeña de tus datos con mucha mayor frecuencia que al resto.

  • Usa la herramienta Key Visualizer para identificar hotspots en tu tabla que podrían estar causando alzas en el uso de CPU.
  • Verifica el diseño del esquema para asegurarte de que admita una distribución uniforme de lecturas y escrituras en cada tabla.

Los valores de estas métricas no deben exceder lo siguiente:

Configuración Valores máximos recomendados
Un solo clúster

70% de uso de CPU promedio
90% de uso de CPU del nodo más activo

Cualquier número de clústeres con enrutamiento de un solo clúster

70% de uso de CPU promedio
90% de uso de CPU del nodo más activo

2 clústeres con enrutamiento de varios clústeres

35% de uso de CPU promedio
45% de uso de CPU del nodo más activo

3 o más clústeres con enrutamiento de varios clústeres

Depende de tu configuración. Consulta los ejemplos de configuración de la replicación para casos prácticos comunes.

Uso del disco

Cloud Bigtable informa las siguientes métricas sobre el uso del disco:

Métrica Descripción
Utilización del almacenamiento (bytes)

La cantidad de datos almacenados en el clúster.

Este valor influye en tus costos. Además, como se describe a continuación, es posible que debas agregar nodos a cada clúster a medida que aumente la cantidad de datos.

Utilización del almacenamiento (porcentaje del máx.)

El porcentaje de la capacidad de almacenamiento del clúster que se encuentra en uso. La capacidad se basa en la cantidad de nodos del clúster.

Por lo general, no se debe usar más del 70% del límite estricto del almacenamiento a fin de tener espacio para agregar más datos. Si no piensas agregar grandes cantidades de datos a tu instancia, puedes usar hasta el 100% del límite estricto.

Si usas un porcentaje de almacenamiento superior al recomendado, agrega nodos al clúster. También puedes borrar los datos existentes, pero los datos borrados ocupan más espacio (no menos) hasta que se realiza una compactación.

Si quieres obtener más información sobre cómo se calcula este valor, consulta Uso de almacenamiento por nodo.

Carga del disco

El porcentaje que tu clúster utiliza del ancho de banda máximo posible para las lecturas y las escrituras de HDD. Disponible solo para clústeres de HDD.

Si este valor se encuentra frecuentemente al 100%, es posible que la latencia aumente. Agrega nodos al clúster para reducir el porcentaje de carga del disco.

Nodos para clústeres replicados

En una instancia que use la replicación, asegúrate de que todos los clústeres tengan nodos suficientes para admitir tu caso práctico:

  • Si usas la replicación para ofrecer disponibilidad alta o si utilizas el enrutamiento de varios clústeres en alguno de tus perfiles de aplicación, cada clúster debe tener la misma cantidad de nodos. Además, como mostramos en Uso de CPU, el uso recomendado se redujo a la mitad.

    Esta configuración garantiza que, si se necesita una conmutación por error automática, el clúster de respuesta tenga la capacidad suficiente para controlar todo el tráfico.

  • Si todos tus perfiles de aplicación usan el enrutamiento de un solo clúster, cada clúster puede tener una cantidad de nodos diferente. Cambia el tamaño de cada uno en función de su carga de trabajo.

    Dado que Cloud Bigtable almacena una copia independiente de tus datos en cada clúster, estos siempre deben tener nodos suficientes para admitir el uso del disco y replicar las escrituras entre ellos.

    De todas formas, puedes realizar la conmutación por error manual de un clúster a otro si es necesario. Sin embargo, si un clúster tiene muchos más nodos que otro y debes realizar una conmutación por error al que tiene menos, es posible que debas agregar nodos primero. Nada garantiza que habrá nodos disponibles cuando necesites realizar la conmutación por error. La única manera de reservarlos por adelantado es agregarlos al clúster.

Próximos pasos