Ir a

¿Qué es un data lakehouse?

Las organizaciones de todo el mundo buscan soluciones de almacenamiento para administrar los requisitos de volumen, latencia, resiliencia y acceso a los macrodatos. Inicialmente, las empresas utilizaron sus pilas tecnológicas existentes e intentaron que sus data lakes entregaran las mismas capacidades que un almacén, ajustando sus almacenes de datos para manejar grandes cantidades de estructuras semiestructuradas, o mantuvieron los datos en ambos. 

En última instancia, estos enfoques dieron como resultado costos elevados, usuarios insatisfechos y datos duplicados en toda la empresa. El data lakehouse surgió como una nueva arquitectura de datos híbrida que busca ofrecer los mejores beneficios de los almacenes de datos y los data lakes, a la vez que elimina las debilidades de ambos sistemas. 

Google Cloud proporciona una solución de data lakehouses nativa de la nube, altamente escalable y segura basada en nuestras ofertas de almacenamiento de bajo costo, motores de procesamiento sin servidores y administración de datos potente. Obtén más información sobre cómo Google Cloud te ayuda a compilar un data lakehouse abierto.

Definición de data lakehouse

Un data lakehouse es una arquitectura de datos que combina un data lake y un almacén de datos. Los data lakehouses permiten el aprendizaje automático, la inteligencia empresarial y las estadísticas predictivas, lo que permite que las organizaciones aprovechen el almacenamiento flexible y de bajo costo para todo tipo de datos estructurados, no estructurados y semiestructurados, a la vez que proporciona estructuras de datos y funciones de administración de datos.

¿Qué es un data lakehouse?

Un data lakehouse es una arquitectura de datos moderna que crea una plataforma única mediante la combinación de los beneficios clave de los data lakes (grandes repositorios de datos sin procesar en su forma original) y los almacenes de datos (conjuntos organizados de datos estructurados). En particular, los data lakes permiten que las organizaciones usen almacenamiento de bajo costo para almacenar grandes cantidades de datos sin procesar y proporcionar funciones de estructura y administración de datos. 

Antes, los almacenes de datos y los data lakes tenían que implementarse como arquitecturas separadas y aisladas a fin de evitar sobrecargar los sistemas subyacentes y crear contención para los mismos recursos. Las empresas usaron almacenes de datos para almacenar datos estructurados para la inteligencia empresarial (IE) y los informes, y data lakes con el objetivo de almacenar datos no estructurados y semiestructurados para las cargas de trabajo de aprendizaje automático (AA). Sin embargo, este enfoque requería que los datos se cambiaran de forma periódica entre los dos sistemas separados cuando los datos de cualquiera de las arquitecturas debían procesarse juntos, lo que generaba complejidad, mayores costos y problemas relacionados con la actualidad de los datos, la duplicación y la coherencia.

El objetivo de los data lakes es acabar con estos sistemas aislados y ofrecer la flexibilidad, la escalabilidad y la agilidad necesarias para garantizar que los datos generen valor para tu empresa, en lugar de ineficiencias.

Data lakehouse vs. data lake vs. almacén de datos

El término “data lakehouse” combina dos tipos de repositorios de datos existentes: el almacén de datos y el data lake. Entonces, ¿cuáles son las diferencias exactas entre data lakehouse, data lake y almacén de datos?

Almacenes de datos

Los almacenes de datos proporcionan acceso rápido a los datos y a la compatibilidad de SQL para los usuarios empresariales que necesitan generar informes y estadísticas para tomar decisiones. Todos los datos deben pasar por la fase ETL (extraer, transformar y cargar). Esto significa que está optimizado en un formato o esquema específico, según el caso práctico antes de cargarlo para admitir consultas de alto rendimiento e integridad de los datos. Sin embargo, este enfoque limita la flexibilidad del acceso a los datos y crea costos adicionales si es necesario transferir los datos para usarlos en el futuro. 

Data lakes

Los data lakes almacenan grandes cantidades de datos no estructurados y estructurados en su formato nativo. A diferencia de los almacenes de datos, los datos se procesan, limpian y transforman durante el análisis a fin de permitir velocidades de carga más rápidas, por lo que son ideales para el procesamiento de macrodatos, el aprendizaje automático o las estadísticas predictivas. Sin embargo, requieren de experiencia en ciencia de datos, lo que limita el conjunto de personas que pueden usar los datos y, si no se mantienen de forma apropiada, su calidad puede deteriorarse con el tiempo. Además, los data lakes dificultan la obtención de consultas en tiempo real, ya que los datos no se procesan, por lo que aún deben limpiarse, procesarse, transferirse e integrarse para poder usarlos. 

Data lakehouse

Un data lakehouse fusiona estos dos enfoques a fin de crear una única estructura que te permita acceder a los datos y aprovecharlos para muchos propósitos diferentes, desde la IE hasta la ciencia de datos y el aprendizaje automático. En otras palabras, un data lake captura todos los datos estructurados, no estructurados y semiestructurados de tu organización y los almacena en un almacenamiento de bajo costo, a la vez que ofrece la capacidad de todos los usuarios de organizar y explorar los datos según sus necesidades. 

Características de un data lakehouse

Las características clave de los data lakehouses son las siguientes: 

  • Almacén de datos de bajo costo para datos únicos para todos los tipos de datos (estructurados, no estructurados y semiestructurados) 
  • Funciones de administración de datos para aplicar esquemas, aplicar la administración de datos y proporcionar procesos de ETL y limpieza de datos
  • Compatibilidad con transacciones para propiedades ACID (atomicidad, coherencia, aislamiento y durabilidad) a fin de garantizar la coherencia de los datos cuando varios usuarios leen y escriben datos en simultáneo 
  • Formatos de almacenamiento estandarizados que se pueden usar en varios programas de software
  • Transmisión de extremo a extremo para admitir la transferencia de datos y la generación de estadísticas en tiempo real 
  • Recursos de procesamiento y almacenamiento separados para garantizar la escalabilidad de un conjunto diverso de cargas de trabajo

Acceso directo para aplicaciones de IE a los datos de origen en el lakehouse para reducir la duplicación de datos. 

¿Cómo funciona un data lakehouse?

Cuando se trata de hacer que un data lakehouse funcione, es importante tener en cuenta lo que intenta lograr. Los data lakehouses tienen como objetivo centralizar fuentes de datos dispares y simplificar los esfuerzos de ingeniería para que todos los miembros de la organización puedan ser usuarios de datos. 

Un data lakehouse usa el mismo almacenamiento de objetos en la nube de bajo costo que los data lakes para proporcionar almacenamiento a pedido a fin de facilitar el aprovisionamiento y el escalamiento. Al igual que un data lake, puede capturar y almacenar grandes volúmenes de todos los tipos de datos sin procesar. Lakehouse integra capas de metadatos en este almacén para proporcionar capacidades similares a las de un almacén, como esquemas estructurados, compatibilidad con transacciones ACID, administración de datos y otras funciones de administración y optimización de datos.

Beneficios de usar un data lakehouse

Arquitectura simplificada

Un data lakehouse quita los sistemas aislados de dos plataformas separadas, por lo que solo debes enfocarte en administrar y mantener un solo repositorio de datos. Las herramientas también se pueden conectar directamente a los datos de origen, de modo que no tienes que extraer o preparar datos para usarlos en un almacén de datos. 

Mejor calidad de los datos 

Puedes aplicar esquemas para los datos estructurados y la integridad de los datos en las arquitecturas de los data lakes, lo que te permite garantizar la coherencia. Además, los data lakehouses reducen el tiempo que tardan los datos nuevos en estar disponibles, lo que garantiza datos más recientes.

Costos más bajos

Almacena grandes volúmenes de datos en almacenamiento de bajo costo y elimina la necesidad de mantener un almacén de datos y un data lake. Los data lakes también reducen los costos de los procesos de ETL y la deduplicación. 

Mayor confiabilidad

Los data lakehouses reducen las transferencias de datos de ETL entre varios sistemas, lo que reduce la posibilidad de que ocurran problemas técnicos o de calidad que pueden ocurrir con el movimiento de datos. 

Administración de datos mejorada

Los datos y recursos se consolidan en un solo lugar con los data lakehouse, lo que facilita la implementación, la prueba y la entrega de los controles de administración y seguridad. 

Reducción de la duplicación de datos

Cuantas más copias de datos existan en sistemas dispares, más probable será que sean inconsistentes y menos confiables. Con los data lakehouses, puedes obtener una única fuente de datos que se puede compartir con toda la empresa para tomar decisiones, a fin de evitar incoherencias y costos de almacenamiento adicionales causados por la duplicación de datos.

Cargas de trabajo diversas

Puedes conectar varias herramientas directamente al lakehouse para admitir cargas de trabajo de estadísticas, SQL, aprendizaje automático y ciencia de datos desde el mismo repositorio.

Alta escalabilidad

El almacenamiento de objetos en la nube de bajo costo de los data lakehouses te permite separar el procesamiento del almacenamiento para proporcionar escalabilidad instantánea y casi ilimitada. Puedes escalar la capacidad de procesamiento y el almacenamiento por separado según las necesidades de tu negocio.

Desafíos de usar un data lakehouse

El concepto de un data lakehouse sigue siendo una arquitectura relativamente nueva, lo que significa que algunos de los desafíos más grandes tienen que ver con el hecho de que está evolucionando y los usuarios pioneros aún están definiendo las prácticas recomendadas. 

Además, los data lakehouses son complejos de construir desde cero. En la mayoría de los casos, deberás optar por una solución de data lakehouse lista para usar o usar una plataforma como Google Cloud que ofrezca todos los componentes necesarios a fin de admitir una arquitectura de lakehouse abierta.

Capas de la arquitectura de data lakehouse

Una arquitectura de data lakehouse consta de las siguientes capas: 

  • Capa de almacenamiento: La capa de almacenamiento es la capa del data lake para todos los datos sin procesar, en general, un almacén de objetos de bajo costo para todos tus conjuntos de datos no estructurados, estructurados y semiestructurados. Está separado de los recursos de procesamiento, por lo que el procesamiento puede escalar de forma independiente. 
  • Capa de etapa de pruebas: La capa de etapa de pruebas es la capa de metadatos que se ubica en la parte superior de la capa de data lake. Proporciona un catálogo detallado sobre todos los objetos de datos almacenados, lo que te permite aplicar funciones de administración de datos, como la aplicación de esquemas, las propiedades ACID, la indexación, el almacenamiento en caché y el control de acceso.
  • Capa semántica: La capa semántica, la capa del lakehouse, expone todos tus datos para su uso, donde los usuarios pueden usar apps cliente y herramientas de estadísticas a fin de acceder y aprovechar los datos para experimentar y presentar inteligencia empresarial. 

Ejemplos de data lakehouses

Existen varios ejemplos de data lakehouses existentes, incluidos Databricks Lakehouse Platform y Amazon Redshift Spectrum. Sin embargo, a medida que las tecnologías continúan madurando y la adopción de los data lakes aumenta, la implementación se ha alejado del acoplamiento de los componentes de los lakehouses a un data lake específico. 

Por ejemplo, el enfoque de Google Cloud ha sido unificar las capacidades principales de las operaciones de datos, los data lakes y los almacenes de datos empresariales. Esta implementación coloca el poder de almacenamiento y procesamiento de BigQuery en el centro de la arquitectura del data lakehouse. Luego, puedes aplicar un enfoque de administración unificada y otras capacidades similares al almacén mediante Dataplex y Analytics Hub. 

BigQuery no solo está integrado en el ecosistema de Google Cloud, sino que también te permite usar tecnologías de socios y de código abierto para combinar lo mejor de las capacidades de lakes y almacenes en un solo sistema.

Seguimos trabajando en este enfoque con el lanzamiento de BigLake, que ahora está en versión preliminar, un motor de almacenamiento unificado que simplifica el acceso a los almacenes de datos y data lakes. Puedes aplicar un control de acceso detallado y acelerar el rendimiento de las consultas en todos los datos distribuidos. 

Resuelve tus desafíos más difíciles con Google Cloud

Los clientes nuevos obtienen $300 en créditos gratuitos que pueden usar en Google Cloud.
Comenzar
Habla con un especialista en ventas de Google Cloud para analizar tu desafío único en más detalle.
Comunicarse con nosotros