Ir a

¿Qué es un data lake?

Un data lake es un repositorio centralizado diseñado para almacenar, procesar y proteger grandes cantidades de datos estructurados, semiestructurados o sin estructurar. Puede almacenar datos en su formato nativo y procesar cualquier variedad de datos, ignorando los límites de tamaño.

Obtén más información sobre la modernización de tu data lake en Google Cloud.

Descripción general de los data lakes

Un data lake proporciona una plataforma escalable y segura que permite a las empresas realizar las siguientes tareas: transferir cualquier dato desde cualquier sistema y a cualquier velocidad (incluso si los datos provienen de sistemas que son locales, de la nube o de procesamiento perimetral); almacenar cualquier tipo o volumen de datos con fidelidad absoluta; procesar datos en tiempo real o en modo por lotes; y analizar datos mediante SQL, Python, R o cualquier otro lenguaje, datos de terceros o aplicaciones de estadísticas.

Comparación entre los data lakes y los almacenes de datos: Un data lake también se puede definir en función de lo que no es. No es solo almacenamiento y no es lo mismo que un almacén de datos.

Si bien en cierto modo los data lakes y los almacenes de datos almacenan datos, cada uno está optimizado para distintos usos. Considéralos herramientas complementarias, en lugar de rivales. Además, en algunos casos, es posible que las empresas necesiten usar ambas. Como punto de comparación, los almacenes de datos suelen ser ideales para el tipo de generación de informes y análisis repetible que resulta común en las prácticas comerciales, como los informes de ventas mensuales, el seguimiento de las ventas por región o el tráfico del sitio web.

¿Necesitas un data lake?

Cuando intentes determinar si tu empresa necesita un data lake, ten en cuenta los tipos de datos con los que trabajas, lo que quieres hacer con los datos, la complejidad del proceso de obtención de datos y tu estrategia de administración y control de datos, además de las herramientas y el conjunto de habilidades con los que cuenta tu organización.

En la actualidad, las empresas están comenzando a considerar el valor de los data lakes desde otra perspectiva: un data lake no solo sirve para almacenar datos con fidelidad absoluta. También permite que los usuarios adquieran un conocimiento más profundo de las situaciones empresariales, ya que cuentan con más contexto que nunca, lo que permite a los usuarios acelerar los experimentos de estadísticas.

Los data lakes se diseñaron con el objetivo principal de controlar grandes volúmenes de macrodatos, por lo que las empresas pueden mover datos sin procesar por medio de lotes o transmisiones a un data lake sin tener que transformarlos. Las empresas confían en los data lakes en situaciones clave para lograr los siguientes objetivos:

  • Disminuir el costo total de propiedad
  • Simplificar la administración de datos
  • Prepararse para incorporar inteligencia artificial y aprendizaje automático
  • Acelerar la generación de estadísticas
  • Mejorar la seguridad y el control

 

Casos de uso de data lakes

Debido a que los data lakes proporcionan la base para las estadísticas y la inteligencia artificial, empresas de todos los sectores los usan a fin de aumentar sus ingresos, ahorrar dinero y reducir los riesgos.

Medios y entretenimiento

Una empresa que ofrece transmisión de música, radio y podcasts puede aumentar sus ingresos si mejora su sistema de recomendación, de modo que los usuarios consuman más su servicio, lo que permitiría a la empresa vender más anuncios.

Telecomunicaciones

Una empresa multinacional de telecomunicaciones puede ahorrar dinero mediante la compilación de modelos de tendencia a la deserción que reducen los casos de deserción de clientes.

Servicios financieros

Una empresa de inversiones puede usar data lakes para alimentar el aprendizaje automático, de modo que pueda administrar los riesgos de cartera apenas se pueda acceder a los datos del mercado en tiempo real.

Google Cloud ofrece un paquete de servicios con ajuste de escala automático que te permite compilar un data lake que se integre en las aplicaciones, las inversiones de TI y las habilidades que ya tienes. En este paquete, se incluyen Dataflow y Cloud Data Fusion para la transferencia de datos, Cloud Storage para el almacenamiento, y Dataproc y BigQuery para el procesamiento de datos y estadísticas.