Cuando hablamos de Big Data o grandes datos, según su traducción literal, hablamos de datos de gran volumen y complejidad que escapan a las soluciones convencionales para manejarlos de manera eficiente.

Dicho de otra manera, las bases de datos relacionales que conocemos y que utilizamos desde la década del 70 ya no ofrecen solución a la problemática de almacenar datos con estas características.

Los distintos orígenes de datos estructurados y no estructurados provenientes de las redes sociales, datos generados a través de servidores, máquinas virtuales e Internet de las cosas da origen a una gran variedad y cantidad de datos. Para darnos una idea de lo que estamos hablando cuando hablamos de volumen podemos echar un vistazo al siguiente gráfico.

 

 

 

Para que hablemos de Big Data se tienen que dar algunas propiedades en los datos conocidas como la regla de las V. Inicialmente, comenzaron siendo 3, luego 4 y hoy en día hablamos de la regla de las 5 Vs:

 

Volumen: 

  • Grandes volúmenes de datos a procesar (muchos terabytes, posiblemente petabytes, o lo que sea que se escape a lo convencional en la actualidad).

 

Velocidad:

  • Los datos pueden generarse a una frecuencia muy elevada.

 

Variedad:

  • Datos estructurados, semiestructurados y no estructurados
  • Fuentes de datos posiblemente diversas, no uniformes
  • Generalmente son datos históricos, pero pueden no serlo
  • Pueden ser generados en tiempo real (depende de la herramienta concreta como está soportado esto)

 

Valor:

  • Su procesamiento o análisis debe ser de utilidad al negocio

 

Veracidad:

  • Implica extraer los datos de alta calidad y dejar de lado los que poseen una mayor imprevisibilidad.

 

Las bases de datos que pueden soportar el almacenamiento de este tipo de datos, las podemos englobar bajo el nombre de Bases de Datos noSQL, que si las definimos formalmente son un conjunto de tecnologías que permiten el procesamiento rápido y eficiente de conjuntos de datos dando mayor importancia al rendimiento, la fiabilidad y la agilidad. Si nos basamos en su acrónimo, son bases de datos que no siguen el modelo relacional y por lo tanto no utilizan el lenguaje SQL como lenguaje de consulta.

 

Podemos agrupar las bases de datos noSQL en 4 tipos:

  • Clave-valor
  • Grafos
  • Documentales
  • Basadas en columnas

 

Hay numerosos ejemplos dentro de cada uno de los grupos. Mencionamos algunos de los más comunes: dentro de las clave-valor tenemos Redis, orientadas a grafos Neo4J, documentales MongoDB y basadas en columnas Cassandra, Hadoop, BigTable y HBase.

Ahora bien, ¿Qué podemos hacer con todos estos datos? ¿Cuál es la importancia de ellos? Lo verdaderamente importante es el análisis que hagamos de ellos, que nos permita convertirlo en información útil para la toma de decisiones.

Se utiliza la lógica en base a algoritmos, empleando modelos descriptivos y prescriptivos para finalmente extraer el valor de los datos en forma de patrones de comportamiento, predicciones de compra o identificación de nuevas oportunidades de negocio.

La capacidad de analizar los datos puede servir tanto a nivel gubernamental como empresarial. Por ejemplo, un gobierno podría optimizar la gestión del tráfico en una ciudad de acuerdo al comportamiento más habitual de los conductores. A su vez, en el marketing y ventas podríamos predecir de antemano cuáles son los gustos y necesidades de los consumidores. En política, por su parte, al conocer las preocupaciones de los ciudadanos podríamos intentar predecir el impacto en la opinión pública de las decisiones políticas.

El término Data Science involucra estos conceptos que mencionamos, Big Data y análisis de datos e incorpora el aprendizaje de máquina. Involucra disciplinas como la programación, matemática y probabilidad y estadística dentro de las herramientas técnicas y también áreas como la sociología y ciencias políticas para entender y darle sentido a esos datos de los que disponemos.

IBM define la “AI Ladder” o escalera hacia la Inteligencia Artificial. La cantidad y variedad de datos y la buena arquitectura de la información nos lleva a hacer su análisis para determinar su valor y en base a ello podemos ir hacia el aprendizaje automático, que es el escalón anterior a la Inteligencia artificial. Dicho de otra forma, la Inteligencia Artificial requiere de Machine Learning, ML requiere Analytics y Analytics requiere de gran cantidad y variedad de datos y una buena arquitectura de la información.