Introducción al Big Data & Analytics

Introducción al Big Data & Analytics

Seguro tienes varios años escuchando las palabras Big Data, Analytics, Machine Learning y otras más. Actualmente hay varias fuentes de información que definen, o al menos intentan definir estos y otros conceptos.

En este post intentaré definir con cuidado qué es el Big Data y qué tiene que ver con él la analítica (o Analytics). Aunque no hay una sola forma de definir qué es el Big Data, y para cada área del conocimiento que lo usa se puede conceptualizar de forma distinta, definiremos el Big Data como:

Los diversos tipos de procesos y estrategias de recolección, guardado y análisis que incluyen e integran distintos tipos de datos que no podrían ser estudiados con técnicas tradicionales de minería de datos.​​​​

Para complementar esta definición, resalté en negrillas algunas palabras que explicaré a continuación. Pero antes comencemos por el final. Si detallas la definición, la termino con que ya no funcionan las técnicas tradicionales de minería de datos. Ahora, ¿qué es minería de datos?, podríamos decir simplemente qué son el conjunto de técnicas y tecnologías que permiten explorar "grandes bases de datos", de manera automática o semiautomática, con el objetivo de encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de los datos en un determinado contexto.

​En este post no me dedicaré a explicar cuáles técnicas o procedimientos se usaban desde el principio de los tiempos en minería de datos, pero solo debe quedarte claro por ahora que muchas de estas técnicas ya no funcionan, principalmente debido al volumen de datos que se manejan hoy en día, su variedad y la velocidad en que cambian.

​Ahora, en nuestra definición, ¿qué son los datos? Primero hay que saber que los datos no son información, no por si solos por lo menos. Podemos decir que los datos son la manera que tenemos de referir o representar en forma cruda o no organizada (como alfabetos, números, símbolos, imágenes, etc.), semiestructurada o con una estructura definida, condiciones, ideas u objetos. 

 Ahora sin una manera eficiente de recolectarguardar, incluir e integrar estos datos no podríamos ni pensar a comenzar a pensar una manera en que éstos nos puedan ayudar a resolver algún problema. Gran parte del Big Data significa encontrar soluciones inteligentes que nos permitan realizar estas tareas de una forma óptima. 

Los sistemas de archivos tradicionales no estaban bien diseñados para sistemas de procesamiento de datos a gran escala. Por lo que hoy en día el tamaño masivo de los datos tiende a almacenarse en varias máquinas de forma distribuida. Proyecto Open Souce como Hadoop (HDFS), Amazon (S3) y otros importantes, surgieron hace varios años para resolver estos problemas, y aún son los más utilizados para resolver las tareas de guardado e integración de datos.


Ahora no todo es almacenar datos, sino estaríamos bañados de archivos, imágenes, textos, lo cual solo nos serviría para decorar una habitación. Si queremos extraer información relevante de nuestros datos, necesitamos de procesos y estrategias de análisis que nos permitan estudiarlos.

​Estos procesos y estrategias de análisis en el Big Data se fundamentan en la ciencia de datos, la inteligencia artificial y el machine learning. ¡Tenemos un post introductorio sobre el tema!

Los datos los podemos obtener de muchas fuentes diferentes como bases de datos públicas o privadas, u objetos que generen gran cantidad de datos autos, ropa, relojes y mucho más. Si quieres leer más sobre la ciencia de datos y la forma en que puede ayudar a tu empresa tienes que leer nuestro post: ¡Exprime la naranja! Cómo la Ciencia de Datos puede ayudar en tu negocio.

Las aplicaciones del Big Data son virtualmente infinitas, pero específicamente en Iron nos dedicamos a usarlo para realizar nuestras estrategias de marketing digital, proveer soluciones mediante análisis avanzado e inteligencia artificial a problemas relacionados con marketing para el sector inmobiliario y retail.

Algo que tienes que llevarte de este post introductorio, es que:

  • Analizar datos da poder. Sin el análisis en Big Data, las empresas serían ciegas y sordas, vagando en la web como ciervos en una autopista. 
  • Analizar los datos vale su costo. Como dijo el gran Arthur Nielsen: "El precio de la luz es menor que el costo de la oscuridad".
  • Y aunque como dijo Albert Einstein: "No todo lo que se puede contar cuenta, y no todo lo que cuenta puede ser contado", debemos tener cuidado con solamente que nos importen nuestros datos. Debemos hacer un análisis detallado mediante procesos y siguiendo estrategias inteligentes de los mismos para encontrar los tesoros ocultos que ocultan (o no ocultan) nuestros datos.
  • Por último, hay que tener en cuenta que algunas de las técnicas que se usan en Big Data son poco ortodoxas o aproximadas, pero siempre hay que recordar que una respuesta aproximada al problema correcto vale mucho más que una respuesta exacta a un problema aproximado.