Cómo elegir entre almacenamiento SSD y HDD

Cuando creas una instancia de Cloud Bigtable, debes elegir si sus clústeres almacenarán los datos en unidades de estado sólido (SSD) o en discos duros (HDD):

  • El almacenamiento SSD es la elección más eficiente y rentable para la mayoría de los casos prácticos.
  • El almacenamiento HDD, a veces, es adecuado para conjuntos de datos muy grandes (más de 10 TB) que no sean sensibles a la latencia o a los que se accede muy poco.

Sin importar el tipo de almacenamiento que elijas, tus datos se almacenarán en un sistema de archivos replicado y distribuido que abarca miles de millones de unidades físicas.

Los lineamientos que se indican en esta página pueden ayudarte a decidir entre SSD y HDD.

Si tienes dudas, elige el almacenamiento SSD

Existen muchos motivos por los que, generalmente, es mejor usar el almacenamiento SSD en tu clúster de Cloud Bigtable:

  • El SSD es considerablemente más rápido y tiene un rendimiento más predecible que el HDD. En un clúster de Cloud Bigtable, el almacenamiento SSD obtiene latencias de 6 ms para lecturas y escrituras en el 99% de las solicitudes. Por otro lado, el almacenamiento HDD obtiene latencias de lectura de 200 ms y de 50 ms en las escrituras en la misma comparativa.
  • La capacidad de procesamiento del HDD es mucho más limitada que la del SSD. En un clúster con almacenamiento HDD, es fácil llegar al máximo de la capacidad de procesamiento sin que el uso de CPU llegue al 100%. Para aumentarla, debes agregar más nodos, pero el costo de agregar nodos puede superar fácilmente los ahorros que obtienes por usar el almacenamiento HDD. El almacenamiento SSD no tiene esta limitación, ya que su capacidad de procesamiento por nodo es mucho mayor; por lo general, un clúster que usa almacenamiento SSD solo alcanza el máximo de la capacidad de procesamiento cuando usa toda la CPU y memoria disponible.
  • Las lecturas de filas individuales en HDD son muy lentas. Debido al tiempo de búsqueda en el disco, el almacenamiento HDD solo admite el 5% de las lecturas de filas por segundo que se realizan en el almacenamiento SSD. Sin embargo, los análisis grandes de varias filas no se ven afectados negativamente.
  • Los ahorros del HDD son mínimos y dependen del costo de los nodos de tu clúster de Cloud Bigtable, a menos que almacenes una gran cantidad de datos. Por este motivo, como regla general, no deberías considerar usar almacenamiento HDD, a menos que almacenes, como mínimo, 10 TB de datos.

Una posible desventaja del almacenamiento SSD es que requiere más nodos en tus clústeres según la cantidad de datos que almacenes. Sin embargo, en la práctica, es posible que necesites esos nodos adicionales a fin de que tus clústeres puedan controlar todo el tráfico entrante, no solo para admitir la cantidad de datos que almacenas.

Casos prácticos del almacenamiento HDD

El almacenamiento HDD es útil en los casos prácticos que cumplen con los siguientes criterios:

  • Esperas almacenar, al menos, 10 TB de datos.
  • No usarás los datos para respaldar una aplicación orientada al usuario o sensible a la latencia.
  • Tu carga de trabajo se define en una de las siguientes categorías:

    • Cargas de trabajo por lotes con análisis y escrituras, y solo lecturas ocasionales de una pequeña cantidad de filas.
    • Archivo de datos, en los que escribes grandes cantidades de datos y muy pocas veces los lees.

Por ejemplo, si piensas almacenar una gran cantidad de datos históricos de muchos dispositivos de teledetección y, luego, usarlos para generar informes diarios, los ahorros por usar almacenamiento HDD compensarían el sacrificio de rendimiento. Por el contrario, si piensas usar los datos para mostrar un panel en tiempo real, probablemente no sea recomendable usar el almacenamiento HDD; en este caso, las lecturas serían mucho más frecuentes, y estas son mucho más lentas con el almacenamiento HDD.

Cómo cambiar entre el almacenamiento SSD y HDD

Cuando creas una instancia y un clúster de Cloud Bigtable, la elección de almacenamiento SSD o HDD es permanente. No puedes usar Google Cloud Platform Console para cambiar el tipo de almacenamiento que se usa en el clúster.

Si necesitas convertir un clúster HDD existente en uno SSD, o viceversa, puedes exportar los datos de la instancia existente y, luego, importarlos a una instancia nueva. Como alternativa, puedes usar un trabajo de Cloud Dataflow o Hadoop MapReduce para copiar los datos de una instancia a otra. Ten en cuenta que migrar una instancia completa requiere tiempo, y es posible que debas agregar nodos a tus clústeres de Cloud Bigtable antes de migrarla.

¿Qué sigue?

Crea una instancia con almacenamiento SSD o HDD.