Hay organizaciones de todo el mundo que buscan soluciones de almacenamiento para gestionar los requisitos de volumen, latencia, resiliencia y acceso a los datos del Big Data. Inicialmente, las empresas usaban las pilas tecnológicas que ya tenían para que sus data lakes ofrecieran las mismas funciones que los almacenes, así como para adaptar sus almacenes de datos para gestionar grandes cantidades de datos semiestructurados u optar por conservar los datos en ambas ubicaciones.
En última instancia, estas estrategias se tradujeron en un aumento de los costes, la insatisfacción de los usuarios y la duplicación de datos en toda la empresa. El data lakehouse ha surgido como una nueva arquitectura de datos híbrida que tiene como objetivo ofrecer las mejores ventajas de los almacenes de datos y los data lakes, al tiempo que elimina los puntos débiles de ambos sistemas.
Google Cloud es una solución de data lakehouse nativa de la nube, muy escalable y segura que se basa en nuestro almacenamiento de bajo coste, nuestros motores de computación sin servidor y nuestras potentes soluciones de gestión de datos. Consulta más información sobre cómo te ayuda Google Cloud a crear un lakehouse de datos abiertos.
Un data lakehouse es una arquitectura de datos que combina un data lake y un almacén de datos. Los data lakehouses favorecen el aprendizaje automático, la inteligencia empresarial y las analíticas predictivas, lo que permite a las empresas sacar partido del almacenamiento flexible y de bajo coste para todo tipo de datos (estructurados, sin estructurar y semiestructurados), al tiempo que ofrecen estructuras y funciones de gestión de datos.
Un data lakehouse es una arquitectura de datos moderna que crea una única plataforma combinando las principales ventajas de los data lakes (grandes repositorios de datos en bruto en su forma original) y los almacenes de datos (conjuntos organizados de datos estructurados). En concreto, los data lakehouses permiten a las organizaciones utilizar un almacenamiento de bajo coste para almacenar grandes cantidades de datos en bruto mientras proporcionan estructuras y funciones de gestión de datos.
Antes, los almacenes de datos y los data lakes tenían que implementarse como arquitecturas independientes y aisladas para no sobrecargar los sistemas subyacentes y crear contención por los mismos recursos. Para ello, las empresas utilizaban almacenes de datos para almacenar datos estructurados para la inteligencia empresarial (BI), informes y lagos de datos para almacenar datos sin estructurar y semiestructurados para almacenar cargas de trabajo de aprendizaje automático. Sin embargo, este enfoque debía cambiar de forma periódica los datos entre los dos sistemas para procesarlos conjuntamente, lo que suponía mayor complejidad, más costes y problemas relacionados con la actualización, la duplicación y la coherencia de los datos.
El objetivo de los data lakehouses es acabar con estos silos y ofrecer la flexibilidad, escalabilidad y agilidad necesarias para que tus datos generen valor para tu negocio, y no una ineficiencia.
El término "data lakehouse" combina dos tipos de repositorios de datos: el almacén de datos y el data lake. Entonces, ¿qué diferencias hay entre un data lakehouse, un data lake y un almacén de datos?
Los almacenes de datos proporcionan acceso rápido a compatibilidad con datos y SQL para los usuarios empresariales que necesitan generar informes y estadísticas para tomar decisiones. Todos los datos deben pasar por la fase de extracción, transformación y carga (ETL). Esto significa que se optimiza con un formato o esquema específico en función del caso práctico antes de cargarlo para admitir consultas de alto rendimiento y la integridad de los datos. Sin embargo, este método limita la flexibilidad de acceso a los datos y genera costes adicionales si es necesario trasladarlos para utilizarlos en el futuro.
Los data lakes almacenan grandes cantidades de datos estructurados y sin estructurar en su formato nativo. A diferencia de los almacenes de datos, los datos se procesan, limpian y transforman durante los análisis para que la velocidad de carga sea más rápida, por lo que son ideales para el procesamiento de Big Data, el aprendizaje automático y las analíticas predictivas. Sin embargo, requieren experiencia en la ciencia de datos, lo que limita el conjunto de personas que pueden utilizar los datos y, si no se mantienen de forma adecuada, la calidad de los datos se puede deteriorar con el tiempo. Los data lakes también dificultan la obtención de consultas en tiempo real, ya que los datos no se procesan, por lo que posiblemente tengan que limpiarse, procesar, ingerir e integrar antes de poder usarse.
Un data lakehouse combina esos dos enfoques para crear una única estructura que te permite acceder a datos y aprovecharlos para muchos fines, como la inteligencia empresarial, la ciencia de datos o el aprendizaje automático. En otras palabras, un data lakehouse recoge todos los datos no estructurados, estructurados y semiestructurados de tu organización y los almacena en un almacenamiento de bajo coste. Además, ofrece a todos los usuarios la posibilidad de organizar y consultar los datos según sus necesidades.
Estas son algunas de las funciones clave de un data lakehouse:
Acceso directo de las aplicaciones de inteligencia empresarial a los datos de origen del lakehouse para reducir la duplicación de datos
A la hora de hacer que un data lakehouse funcione, hay que tener en cuenta sus objetivos. El objetivo de los data lakehouses es centralizar las distintas fuentes de datos y simplificar los esfuerzos de ingeniería para que todos los miembros de tu organización puedan ser usuarios de datos.
Los data lakehouse utilizan el mismo bajo coste de almacenamiento de objetos en la nube de los data lakes para proporcionar almacenamiento bajo demanda y facilitar el aprovisionamiento y el escalado. Al igual que los data lakes, pueden capturar y almacenar grandes volúmenes de todo tipo de datos en formato sin procesar. El lakehouse integra capas de metadatos en este almacén para proporcionar funciones similares a las de un almacén, como esquemas estructurados, compatibilidad con transacciones ACID, gobierno de datos y otras funciones de gestión y optimización de datos.
Arquitectura simplificada Con un data lakehouse se eliminan los silos de dos plataformas distintas, solo tienes que centrarte en gestionar y mantener un único repositorio de datos. Las herramientas también se pueden conectar directamente a los datos de origen, de modo que no tengas que extraer ni preparar los datos para usarlos en un almacén de datos. | Datos de mejor calidad Puedes aplicar esquemas para los datos estructurados y la integridad de los datos en las arquitecturas data lakehouse, lo que te permite asegurar la coherencia. Además, los lakehouses reducen el tiempo que se tarda en ofrecer datos nuevos, lo que permite que los datos estén más actualizados. | Costes más bajos Almacena grandes volúmenes de datos en un almacenamiento de bajo coste y elimina la necesidad de mantener tanto un almacén de datos como un data lake. Los data lakehouses también ayudan a reducir los costes derivados de los procesos de extracción, transformación y carga (ETL) y de la anulación de duplicados. |
Mayor fiabilidad Los data lakehouses reducen las transferencias de datos de extracción, transformación y carga (ETL) entre varios sistemas, lo que reduce las posibilidades de que se produzcan problemas de calidad o técnicos con la transferencia de datos. | Gobernanza de datos mejorada Los data lakehouses se agrupan en un mismo lugar para consolidar los datos y los recursos, lo que facilita la implementación, las pruebas y los controles de gobernanza y seguridad. | Reducción de la duplicación de datos Cuantas más copias de datos haya en sistemas diferentes, más probabilidades habrá de que sean incoherentes y menos fiables. Con los data lakehouses, puedes tener una única fuente de datos que toda la empresa puede compartir para tomar decisiones, lo que evita incoherencias y costes adicionales de almacenamiento derivados de la duplicación de datos. |
Cargas de trabajo diversas Puedes conectar varias herramientas directamente a la casa del lago para admitir cargas de trabajo de analíticas, SQL, aprendizaje automático y ciencia de datos desde el mismo repositorio. | Alta escalabilidad El bajo coste del almacenamiento de objetos en la nube de data lakehouses te permite separar la computación del almacenamiento para proporcionar una escalabilidad casi ilimitada e instantánea. Puedes escalar la potencia de computación y el almacenamiento de forma independiente según las necesidades de tu empresa. |
Arquitectura simplificada
Con un data lakehouse se eliminan los silos de dos plataformas distintas, solo tienes que centrarte en gestionar y mantener un único repositorio de datos. Las herramientas también se pueden conectar directamente a los datos de origen, de modo que no tengas que extraer ni preparar los datos para usarlos en un almacén de datos.
Datos de mejor calidad
Puedes aplicar esquemas para los datos estructurados y la integridad de los datos en las arquitecturas data lakehouse, lo que te permite asegurar la coherencia. Además, los lakehouses reducen el tiempo que se tarda en ofrecer datos nuevos, lo que permite que los datos estén más actualizados.
Costes más bajos
Almacena grandes volúmenes de datos en un almacenamiento de bajo coste y elimina la necesidad de mantener tanto un almacén de datos como un data lake. Los data lakehouses también ayudan a reducir los costes derivados de los procesos de extracción, transformación y carga (ETL) y de la anulación de duplicados.
Mayor fiabilidad
Los data lakehouses reducen las transferencias de datos de extracción, transformación y carga (ETL) entre varios sistemas, lo que reduce las posibilidades de que se produzcan problemas de calidad o técnicos con la transferencia de datos.
Gobernanza de datos mejorada
Los data lakehouses se agrupan en un mismo lugar para consolidar los datos y los recursos, lo que facilita la implementación, las pruebas y los controles de gobernanza y seguridad.
Reducción de la duplicación de datos
Cuantas más copias de datos haya en sistemas diferentes, más probabilidades habrá de que sean incoherentes y menos fiables. Con los data lakehouses, puedes tener una única fuente de datos que toda la empresa puede compartir para tomar decisiones, lo que evita incoherencias y costes adicionales de almacenamiento derivados de la duplicación de datos.
Cargas de trabajo diversas
Puedes conectar varias herramientas directamente a la casa del lago para admitir cargas de trabajo de analíticas, SQL, aprendizaje automático y ciencia de datos desde el mismo repositorio.
Alta escalabilidad
El bajo coste del almacenamiento de objetos en la nube de data lakehouses te permite separar la computación del almacenamiento para proporcionar una escalabilidad casi ilimitada e instantánea. Puedes escalar la potencia de computación y el almacenamiento de forma independiente según las necesidades de tu empresa.
El concepto de "data lakehouse" sigue siendo una arquitectura relativamente nueva, lo que significa que algunos de los mayores desafíos tienen que ver con el hecho de que está evolucionando y las prácticas recomendadas todavía están siendo definidas por los primeros usuarios.
Además, crear data lakehouses también es difícil de construir desde cero. En la mayoría de los casos, deberás optar por una solución de data lakehouse lista para usar o utilizar una plataforma como Google Cloud que ofrece todos los componentes necesarios para crear una arquitectura abierta de lakehouse.
Una arquitectura de data lakehouse consta de las siguientes capas:
Existen varios ejemplos de data lakehouse, como Databricks Lakehouse Platform y Amazon Redshift Spectrum. Sin embargo, a medida que las tecnologías siguen madurando y la adopción de "data lakehouse" ha aumentado, la implementación ha dejado de acoplar componentes de lakehouse a un lago de datos específico.
Por ejemplo, el enfoque de Google Cloud ha sido unificar las funciones básicas de las operaciones de datos empresariales, los data lakes y los almacenes de datos. Esta implementación sitúa la capacidad de almacenamiento y de computación de BigQuery en el centro de la arquitectura de data lakehouse. Después, puedes aplicar un enfoque de gobernanza unificado y otras funciones de tipo almacén mediante Dataplex y Analytics Hub.
BigQuery no solo está integrado en el ecosistema de Google Cloud, sino que también te permite utilizar tecnologías de partners y de software libre para reunir en un único sistema las mejores funciones de los lagos y almacenes.
Seguimos trabajando con este enfoque con el lanzamiento de BigLake, que ahora se encuentra en versión preliminar, un motor de almacenamiento unificado que simplifica el acceso de los datos a los almacenes de datos y los data lakes. Puedes aplicar un control de acceso pormenorizado y agilizar el rendimiento de las consultas en los datos distribuidos.