Dentro del extenso mundo que son los big data, conviene detenerse en dos tipos de almacenes de datos que tienen distintas utilidades, distinta arquitectura y, también, distintos beneficios para las empresas o instituciones que los utilizan. Hablamos de los data lake y los data warehouse.
¿Qué es un ‘data lake’?
Un data lake o lago de datos es un repositorio en el que se almacenan datos que proceden, normalmente, de un mismo sector, pero que pueden estar estructurados o no y que no están ordenados de ninguna forma en particular. Es un sistema de almacenamiento bastante común, por ejemplo, en el mundo de la investigación.
Por tanto, debemos entender, y esta es la característica principal de este tipo de almacén de datos, que se almacenan en bruto, que no están tratados; en definitiva, que hay que estructurarlos para sacar conclusiones válidas de ellos.
‘Data warehouse’: cuando los datos se someten a un orden
Warehouse significa «depósito» o «almacén», y esto en sí mismo ya sugiere cierta organización que no se atisba en el concepto lago. Y es así. La principal diferencia entre un lago de datos y un almacén de datos (data lake, data warehouse) es que este último ofrece a quien busca datos estructurados y segmentados en función de unas necesidades muy concretas.
¿Para qué sirven?
Ambos repositorios, lake y warehouse, los puede utilizar indistintamente una empresa o institución con el fin de extraer información relevante para sus fines. Pero hay que tener en cuenta sus diferencias y, consecuentemente, sus ventajas y desventajas.
- El data lake conserva todos los datos que se almacenen en él, sean o no de utilidad para el usuario.
- El data warehouse es un modelo de datos que almacena lo que se le ha pedido y en el modo en el que se le ha pedido.
¿Quiénes utilizan los ‘data lake’ y los ‘data warehouse’?
Desde una empresa que quiere conocer su impacto en redes sociales hasta una red de centros de investigación que necesitan una cantidad masiva de datos, pasando por instituciones de sanidad que buscan cómo mejorar su servicio; todas ellas y muchas más organizaciones se sirven de los lagos y almacenes de datos para extraer conclusiones que los hagan avanzar.
Ventajas y desventajas
Los data lake, al carecer de estructura, pueden ofrecer resultados erróneos si no se saben organizar o manejar; es conveniente que quien los utiliza para extraer información sepa cómo acotarla. Pero en el lado positivo son conjuntos de datos muy moldeables y flexibles, no elimina absolutamente ningún tipo de información (que quizá ahora no nos hace falta pero en el futuro sí) y se adaptan a las nuevas circunstancias.
En los data warehouse, por el contrario, la información guardada se organiza en función del usuario y las necesidades, siempre de la misma manera, y descarta todo aquello que no merece la pena almacenar (en función del coste-beneficio). La información que ofrecen es menos rápida que en el caso anterior, pero sin duda es mucho más precisa. Sin embargo, si las necesidades cambian, un data warehouse se adapta mal a los cambios: es poco flexible y no es útil cuando el usuario quiere respuestas rápidas.
Entonces, ¿cuál es mejor? Pues, como casi siempre, depende. Lo habitual es que las empresas u organismos que se sirven de ellos tengan uno y otro y recurran al lago o al almacén dependiendo de lo que se necesite en ese momento.