Data lakes frente a almacenes de datos

La administración de datos es una parte importante de la potenciación del análisis empresarial y la creación de experiencias excepcionales para los clientes. Es probable que hayas oído hablar de los términos data lake y almacén de datos, pero es difícil saber cuál se adapta a tu proyecto. Estos dos sistemas manejan los datos de diferentes maneras. Un data lake es como un gran conjunto de datos sin procesar en el que no se define el propósito de inmediato. Un almacén de datos es más como una biblioteca de datos organizados y filtrados que están listos para usarse en tareas específicas. Conocer las diferencias te ayuda a elegir la herramienta adecuada para tus necesidades de datos.

Definiciones de data lake y almacén de datos

  • Un data lake es un lugar central en el que puedes almacenar todos tus datos a cualquier escala. No es necesario que cambies los datos antes de guardarlos. Almacena datos en su forma sin procesar, ya sean estructurados, semiestructurados o no estructurados. Esto la convierte en una excelente opción para los equipos que quieren recopilar muchos datos ahora y decidir cómo usarlos más adelante.
  • Un almacén de datos es un sistema creado para el análisis de datos y la creación de informes. A diferencia de un data lake, un almacén de datos solo contiene datos que ya se limpiaron y procesaron. Usa una estructura específica o "esquema" para organizar los datos. Esto hace que sea muy rápido para ejecutar consultas y crear informes empresariales.

¿Cuál es la diferencia entre un data lake y un almacén de datos?

La principal diferencia entre estos dos sistemas es cómo manejan la estructura y el uso de los datos. Un data lake es para datos sin procesar y no estructurados, mientras que un almacén de datos es para datos estructurados y procesados.

Característica

Data lake

Almacén de datos

Tipo de datos

Todos los datos (sin procesar, estructurados y no estructurados)

Datos estructurados procesados

Purpose

Aún no se define

Definido y específico

Usuarios

Científicos de datos, ingenieros de datos

Analistas de datos, analistas de inteligencia empresarial

Accesibilidad

Muy flexible y fácil de cambiar

Más difícil de cambiar, más rígida

Procesamiento

Esquema en lectura (definido cuando se usa)

Esquema en escritura (definido antes de guardar)

Beneficios


  • Bajo costo para grandes volúmenes
  • Flexible para cualquier tipo de datos
  • Escalable para modelos de IA y AA
  • Consultas en SQL de alto rendimiento
  • Alta calidad de los datos y confianza
  • Seguro y fácil para usuarios de SQL

Característica

Data lake

Almacén de datos

Tipo de datos

Todos los datos (sin procesar, estructurados y no estructurados)

Datos estructurados procesados

Purpose

Aún no se define

Definido y específico

Usuarios

Científicos de datos, ingenieros de datos

Analistas de datos, analistas de inteligencia empresarial

Accesibilidad

Muy flexible y fácil de cambiar

Más difícil de cambiar, más rígida

Procesamiento

Esquema en lectura (definido cuando se usa)

Esquema en escritura (definido antes de guardar)

Beneficios


  • Bajo costo para grandes volúmenes
  • Flexible para cualquier tipo de datos
  • Escalable para modelos de IA y AA
  • Consultas en SQL de alto rendimiento
  • Alta calidad de los datos y confianza
  • Seguro y fácil para usuarios de SQL

Ejemplos de la industria

Imagina que estás creando un juego para dispositivos móviles. Quieres hacer un seguimiento de cada clic en los botones de todos los usuarios. Aún no sabes qué clics son importantes para tu próxima actualización. Puedes enviar todos esos eventos JSON sin procesar directamente a un data lake. Más tarde, tus científicos de datos pueden ejecutar una secuencia de comandos para encontrar patrones en esos datos sin procesar.

Otro ejemplo son los sensores de IoT. Si tienes miles de sensores que envían datos de temperatura cada segundo, puedes volcar esos datos sin procesar en un lake. Tendrás un historial completo de todo lo que sucedió sin preocuparte por cómo darle formato primero.

Piensa en una empresa minorista que necesita hacer un seguimiento de sus ventas. Cada noche, el sistema toma todos los pedidos del día, limpia las direcciones, calcula el impuesto y guarda esta información en un almacén de datos. Luego, un gerente puede ejecutar un informe para ver exactamente cuántas camisas azules se vendieron en Chicago. Los datos están ordenados, limpios y listos para usarlos en un gráfico.

Un banco también podría usar un almacén de datos para hacer un seguimiento de las cuentas. Necesitan conocer el saldo exacto de cada cliente en cualquier momento. No quieren registros sin procesar, sino una tabla estructurada que muestre cada transacción con claridad.

Crea un modelo de IA con un data lake

Los científicos de datos suelen necesitar crear un modelo de IA que pueda detectar reservas fraudulentas en tiempo real. Como los datos provienen de muchos lugares, como registros de sitios web, eventos de apps para dispositivos móviles y socios externos, un data lake funciona mejor para entrenar modelos de IA.

Recopila datos sin procesar

Comienza por configurar una canalización para enviar cada evento sin procesar a Cloud Storage. Esto incluye archivos JSON desordenados del sitio web y registros binarios de la app para dispositivos móviles. No tienes que preocuparte por dar formato a los datos todavía, ya que Cloud Storage está diseñado para este tipo de escala.

Procesa a gran escala

Si quieres que el modelo de IA pueda aprovechar los datos, debes depurarlos. Puedes usar Google Cloud Service para Apache Spark para ejecutar un trabajo de Apache Spark sin servidores. Esto te permite transformar millones de registros sin procesar en un formato estructurado sin necesidad de administrar servidores o clústeres.

Entrenar el modelo

Ahora que los datos están listos, puedes ingresarlos en una herramienta de aprendizaje automático. Como los datos sin procesar originales aún están en el lake, siempre puedes volver y consultar los detalles "ocultos" que podrían mejorar aún más el modelo.

Con un data lake, puedes almacenar todo a bajo costo y solo procesar lo que se necesita cuando llegue el momento de crear el modelo.

Predice ventas con un almacén de datos

Ahora, veamos un caso de uso de ciencia de datos para comercios. Puedes prever cuántos abrigos venderá la empresa el próximo mes y, como los datos de ventas ya están depurados y almacenados en una base de datos, se recomienda usar un almacén de datos para esta tarea.

Accede a datos estructurados

Comienza con BigQuery, que actúa como almacén de datos central de la empresa. Los datos de ventas ya están organizados en tablas ordenadas con columnas para fechas, IDs de productos y precios. Como los datos ya están estructurados, no tienes que dedicar tiempo a depurarlos.

Ejecuta consultas rápidas

Escribe una consulta en SQL para ver los últimos cinco años de ventas de invierno. Aunque hay miles de millones de filas de datos, BigQuery encuentra la respuesta en segundos. Esta velocidad te permite probar diferentes ideas y mejorar las previsiones rápidamente.

Comparte información

Una vez que la previsión esté lista, puedes usar una herramienta integrada para crear un panel. Ahora el equipo de marketing puede ver exactamente cuántos abrigos necesita pedir. Como BigQuery funciona sin servidores, la empresa solo paga por las consultas que ejecutas, lo que mantiene los costos bajos.

Para este caso de uso, el almacén de datos es la mejor herramienta porque proporciona respuestas rápidas y confiables a preguntas empresariales específicas con datos que ya están en un formato utilizable.

Resuelve tus desafíos más difíciles con Google Cloud

Los clientes nuevos obtienen $300 en créditos gratuitos que pueden usar en Google Cloud.
Habla con un especialista en ventas de Google Cloud para analizar tu desafío único en más detalle.

Elige data lakes o almacenes de datos

Elegir entre un data lake y un almacén de datos depende de lo que quieras crear. Si tienes muchos datos sin procesar y quieres explorarlos con código, comienza con un data lake. Si tienes preguntas empresariales específicas y necesitas informes rápidos y confiables, es probable que un almacén de datos sea la mejor opción. De hecho, muchas empresas usan ambos enfoques en conjunto para obtener lo mejor de cada uno.

Da el siguiente paso

Comienza a desarrollar en Google Cloud con el crédito gratis de $300 y los más de 20 productos del nivel Siempre gratuito.

Google Cloud