La gestión de datos es una parte fundamental de las analíticas empresariales y de la creación de experiencias de cliente excepcionales. Seguramente hayas oído hablar de los términos "data lake" y "almacén de datos", pero es difícil saber cuál se adapta mejor a tu proyecto. Cada uno de estos sistemas gestiona los datos de distinta forma. Un data lake es como un gran conjunto de datos en bruto en el que no se define el propósito de inmediato. Un almacén de datos se parece más a una biblioteca de datos organizados y filtrados que están listos para utilizarlos en tareas específicas. Conocer las diferencias te ayuda a elegir la herramienta adecuada para tus necesidades de datos.
La principal diferencia entre estos dos sistemas es cómo gestionan la estructura y el uso de los datos. Un data lake es para datos en bruto y no estructurados, mientras que un almacén de datos es para datos estructurados y procesados.
Función | Data lake | Almacén de datos |
Data type (Dato) | Todos los datos (en bruto, estructurados y no estructurados) | Datos estructurados y procesados |
Purpose | Aún sin definir | Definido y específico |
Usuarios | Científicos e ingenieros de datos | Analistas de datos y analistas de inteligencia empresarial |
Accesibilidad | Muy flexible y fácil de cambiar | Más difícil de cambiar y más rígido |
Procesamiento | Esquema en lectura (definido cuando se usa) | Esquema en escritura (definido antes de guardar) |
Ventajas |
|
|
Función
Data lake
Almacén de datos
Data type (Dato)
Todos los datos (en bruto, estructurados y no estructurados)
Datos estructurados y procesados
Purpose
Aún sin definir
Definido y específico
Usuarios
Científicos e ingenieros de datos
Analistas de datos y analistas de inteligencia empresarial
Accesibilidad
Muy flexible y fácil de cambiar
Más difícil de cambiar y más rígido
Procesamiento
Esquema en lectura (definido cuando se usa)
Esquema en escritura (definido antes de guardar)
Ventajas
Supongamos que estás creando un juego para móviles. Quieres hacer un seguimiento de cada clic que haga cada usuario en cada botón. Aún no sabes qué clics son importantes para tu próxima actualización. Puedes enviar todos esos eventos JSON sin procesar directamente a un data lake. Más adelante, tus científicos de datos pueden ejecutar un script para encontrar patrones en esos datos en bruto.
Otro ejemplo son los sensores de Internet de las cosas. Si tienes miles de sensores que envían datos de temperatura cada segundo, puedes volcar esos datos en bruto en un data lake. Tendrás un historial completo de todo lo que ha ocurrido sin tener que preocuparte por darle formato primero.
Imagina una empresa de retail que necesita hacer un seguimiento de sus ventas. Cada noche, el sistema registra todos los pedidos del día, limpia las direcciones, calcula los impuestos y los guarda en un almacén de datos. A continuación, un gestor puede generar un informe para ver exactamente cuántas camisetas azules se han vendido en Chicago. Los datos están ordenados y listos para crear un gráfico.
Un banco también podría usar un almacén de datos para hacer un seguimiento de las cuentas. Necesitan saber el saldo exacto de cada cliente en cualquier momento. No quieren registros sin procesar, sino una tabla estructurada que muestre claramente cada transacción.
Los científicos de datos suelen necesitar crear un modelo de IA que pueda detectar reservas fraudulentas en tiempo real. Como los datos proceden de muchos sitios, como registros de sitios web, eventos de aplicaciones móviles y partners externos, un data lake es la mejor opción para entrenar modelos de IA.
Empieza configurando un flujo de procesamiento para enviar todos los eventos sin procesar a Cloud Storage. Esto incluye archivos JSON desordenados del sitio web y registros binarios de la aplicación móvil. No tienes que preocuparte por dar formato a los datos todavía, ya que Cloud Storage se ha diseñado para este tipo de escala.
Para que los datos sean útiles para el modelo de IA, debes limpiarlos. Puedes usar el servicio de Google Cloud para Apache Spark para ejecutar una tarea de Apache Spark sin servidor. De esta forma, puedes transformar millones de registros en bruto en un formato estructurado sin tener que gestionar servidores ni clústeres.
Ahora que los datos están listos, puedes introducirlos en una herramienta de aprendizaje automático. Como los datos en bruto originales siguen en el lake, siempre puedes volver a consultarlos y buscar detalles "ocultos" que puedan ayudarte a mejorar aún más el modelo.
Al usar un data lake, puedes almacenar todo a bajo coste y solo procesar lo que sea necesario cuando llegue el momento de crear el modelo.
Veamos ahora un caso práctico de ciencia de datos para comercios. Puedes predecir cuántos abrigos de invierno venderá la empresa el mes que viene. Como los datos de ventas ya están limpios y almacenados en una base de datos, se recomienda usar un almacén de datos para esta tarea.
Empieza con BigQuery, que actúa como almacén de datos central de una empresa. Los datos de ventas ya están organizados en tablas con columnas de fechas, precios e IDs de producto. Como los datos ya están estructurados, no tienes que dedicar tiempo a limpiarlos.
Escribe una consulta de SQL para ver las ventas de invierno de los últimos cinco años. Aunque haya miles de millones de filas de datos, BigQuery encuentra la respuesta en cuestión de segundos. Esta velocidad te permite probar diferentes ideas y acotar la previsión rápidamente.
Cuando la previsión esté lista, puedes usar una herramienta integrada para crear un panel de control. Ahora el equipo de marketing puede ver exactamente cuántos abrigos necesita pedir. Como BigQuery no tiene servidor, la empresa solo paga por las consultas que ejecutas, lo que mantiene los costes bajos.
En este caso, el almacén de datos es la mejor herramienta, ya que proporciona respuestas rápidas y fiables a preguntas empresariales específicas utilizando datos que ya están en un formato que puede utilizarse.
Elegir entre un data lake y un almacén de datos depende de lo que quieras crear. Si tienes muchos datos en bruto y quieres explorarlos con código, empieza con un data lake. Si tienes preguntas empresariales específicas y quieres informes rápidos y fiables, lo más probable es que un almacén de datos sea la mejor opción. De hecho, muchas empresas utilizan ambas soluciones para aprovechar lo mejor de cada una.
Empieza a crear en Google Cloud con 300 USD en crédito sin coste económico y más de 20 productos que siempre se ofrecen sin coste.