• Temas
  • ¿Qué son los lagos de datos?

¿Qué son los lagos de datos?

Los lagos de datos son repositorios centralizados que están diseñados para almacenar, procesar y proteger grandes cantidades de datos estructurados, semiestructurados y sin estructurar. Pueden almacenar datos en su formato nativo y procesar cualquier variedad sin tener en cuenta ningún límite de tamaño.

Obtén más información sobre cómo modernizar tus lagos de datos con Google Cloud.

Información general sobre los lagos de datos

Los lagos de datos constituyen una plataforma escalable y segura en la que las empresas pueden hacer varias operaciones: ingerir toda clase de datos de cualquier sistema con independencia de su rapidez, incluso datos procedentes de sistemas on‑premise, en la nube o de informática perimetral; almacenar cualquier tipo o volumen de datos con alta fidelidad; procesar datos en tiempo real o por lotes; y analizar datos usando cualquier tipo de lenguaje, como SQL, Python o R, u otras aplicaciones de datos o de analíticas de terceros.

¿Lagos de datos o almacenes de datos? Los lagos de datos también se definen por lo que no son. No son un mero espacio de almacenamiento, ni son lo mismo que los almacenes de datos.

En cierto sentido, tanto en los lagos como en los almacenes se guardan datos, pero cada uno está optimizado para usos diferentes. No son herramientas excluyentes, sino más bien complementarias, y las empresas pueden necesitar ambas. Por señalar una diferencia, los almacenes de datos suelen venir bien para informes y análisis que se repiten habitualmente en la práctica empresarial, como informes mensuales de ventas, seguimiento de ventas por regiones o tráfico de sitios web.

¿Necesitas un lago de datos?

Para decidir si necesitas un lago de datos, piensa en qué tipos de datos utilizas, qué quieres hacer con ellos, cómo de complejo es tu proceso de adquisición de datos y qué estrategia sigues para gestionarlos y gobernarlos, además de qué herramientas y habilidades hay en tu empresa.

En la actualidad, las empresas se empiezan a plantear la utilidad de los lagos de datos desde otra óptica. Ya no los consideran solo como espacios para almacenar datos de alta fidelidad, sino como herramientas con las que los usuarios comprenden mejor las situaciones de negocio, ya que les aportan más contexto que nunca y les permiten agilizar los experimentos analíticos.

En principio, los lagos de datos se desarrollaron para gestionar grandes volúmenes de Big Data, pero las empresas suelen transferir a ellos datos sin procesar ni transformar mediante lotes o flujos y los utilizan para lograr lo siguiente:

  • Reducir el coste total de propiedad.
  • Simplificar la gestión de los datos.
  • Preparar la incorporación de inteligencia artificial (IA) y aprendizaje automático.
  • Agilizar las analíticas.
  • Mejorar la seguridad y el gobierno.

 

¿Cuáles son algunos de los usos de los lagos de datos?

Como los lagos de datos aportan la base para las analíticas y la IA, las empresas de todos los sectores los utilizan para aumentar los ingresos, ahorrar dinero y reducir riesgos.

Medios de comunicación y entretenimiento

Una empresa que ofrece música en streaming, radio y podcasts puede incrementar sus ingresos si mejora el sistema de recomendaciones. Así, los usuarios utilizan más su servicio y la empresa vende más anuncios.

Telecomunicaciones

Una multinacional de las telecomunicaciones puede ahorrar dinero si crea modelos de predisposición al abandono que le permitan reducir esta tasa.

Servicios financieros

Una sociedad de inversión puede usar lagos de datos para facilitar el aprendizaje automático y, de ese modo, gestionar los riesgos de su cartera en cuanto estén disponibles los datos en tiempo real de los mercados.

Google Cloud ofrece un paquete de servicios con autoescalado que te permiten crear un lago de datos que se integre con tus aplicaciones, habilidades e inversiones en TI. Incluye Dataflow y Cloud Data Fusion para la ingestión de datos; Cloud Storage para el almacenamiento; y Dataproc y BigQuery para el procesamiento de datos y analíticas.