Si dividimos este conocido término encontraremos dos palabras: “data” (datos en inglés) y “lake” (que significa lago). Pero, ¿Cómo se conectan estos conceptos que no parecen guardar relación alguna?

Primero se debe pensar en las características que engloba un lago. Se trata de un gran depósito de agua, la cual llega de diferentes lugares y en diversas condiciones para quedarse allí reunida por un momento. Sin embargo, su paso por el lago la limpiará y la conducirá a distintas vertientes o salidas posibles. Es decir, ese mismo agua es usada con múltiples propósitos.

Una vez recreada la imagen de un lago real será más fácil pensar en el concepto de Data Lake. Los datos depositados allí provienen de muchos sitios y son dejados en el estado más puro posible.  Esos datos ya están listos para ser “consumidos” o utilizados por variedad de partes interesadas e incluso pueden “envasarse” para los consumidores finales.

El concepto de Data Lake hace referencia a la naturaleza particular de los datos de este sistema, en contraste con los datos limpios y procesados guardados en los sistemas tradicionales de almacenes de datos.

Los Data Lakes se suelen configurar en un clúster de hardware de consumo económico y escalable, lo que permite volcar los datos por si fuera necesario más adelante sin tener que preocuparse por la capacidad de almacenamiento. Dichos clústeres pueden existir de manera local o en la nube.

Podemos decir, entonces, que Data Lake democratiza los datos, permitiendo que toda una organización acceda a ellos para su utilización y procesamiento.

La arquitectura de Data Lake nos abre una vía para el uso del Big Data, cada vez más aplicado y necesitado por las organizaciones en la actualidad. A mayor cantidad de datos, mayor riqueza tienen en sus manos.

 

¿Cómo funciona Data Lake?

El paso inicial consiste en ingresar los datos en este “lago de datos” ya sea por transmisión o usando procesamiento por lotes; una vez los datos estén allí, estarán disponibles para todos. El lago de datos permite la exploración de los mismos, accediendo a ellos de forma sencilla.

Los datos también pueden ser catalogados, y es posible buscarlos gracias a la clasificación éstos. El procesamiento de datos implica la posibilidad de analizarlos, además de normalizarlos y enriquecerlos, transformarlos a distintos formatos o crear estructuras. Otra ventaja que ofrece Data Lake es la seguridad, pudiendo controlar todo lo que ocurre a su alrededor.

 

Sus 3 aspectos fundamentales

Más allá de lo mencionado previamente, la estructura de Data Lake posee algunas características que la vuelven aún más valiosa:

  • Recoge todo tipo de información, ya sean datos procesados o fuentes que durante mucho tiempo no fueron procesadas.
  • Bucea dentro del lago, permitiendo a los usuarios explorar y modificar los datos según sus intereses y su línea de negocio.
  • Ofrece un acceso flexible a una infraestructura compartida para diferentes patrones a la vez.

 

Diferencias entre Data Lake y Data Warehouse

Al hablar de almacenamiento de datos suele surgir otro concepto similar: el Data Warehouse. Se trata de una base de datos optimizada para analizar datos relacionales procedentes de sistemas transaccionales y aplicaciones de línea de negocio. A diferencia de un Data Lake, que recoge tanto datos estructurados como no estructurados, el Data Warehouse solo recoge datos estructurados.

Otra diferencia es la finalidad de los datos, aspecto que en un Data Lake puede estar definido o no, mientras que en un Data Warehouse se conoce de antemano. Y si hablamos de flexibilidad encontraremos que en un Data Lake es más sencillo hacer cambios por no tener estructura, pero en un Data Warehouse es más complicado por estar implicados otros procesos.

 

 

Ahora que ya conociste la importancia de utilizarla, ¿Por qué no aplicarla en tu empresa?

En CDA tenemos experiencia en la implementación de Data Lake en la Nube. ¡Consultanos!