Coleccionar datos por el simple placer de hacerlo carece de un sentido práctico. De ahí que Big Data y Analítica son un par indisoluble para generar valor en tu organización.
Por Francisco Olvera
Cuando se aviene una nueva tecnología o un nuevo paradigma de estrategia que promete revolucionar el mundo, es común que se generen cuando menos dos corrientes de opinión: unos que en efecto consideran que se trata de una innovación indiscutible y otros que piensan que se trata de algo que ya existía tan sólo con un nombre nuevo. Podríamos decir con justicia que cada novedad que aparece en el panorama tiene un componente de innovación y otro de aprovechamiento de ideas o tecnologías ya existentes. En la frase “Si he logrado ver más lejos, ha sido porque he subido a hombros de gigantes”, Isaac Newton reconocía la contribución de otros científicos que le permitieron llegar a sus propios hallazgos. Big Data y Analítica ejemplifican muy bien la situación descrita.
Para comenzar a hablar del tema, buscaremos dar respuesta a la pregunta ¿por qué el Big Data es clave en las organizaciones? Coleccionar datos por el simple placer de hacerlo carece de un sentido práctico. La adquisición y posterior almacenamiento de datos obedece a la necesidad de tenerlos como una evidencia de lo que pasa a nuestro alrededor y emplearlos para explicar los fenómenos que nos rodean, buscando así reproducirlos o evitarlos, según sea su impacto para nuestras metas (aumentar la ventas, disminuir las pérdidas, por ejemplo). La explicación de estos fenómenos se logra analizándolos, ya sea interpretando gráficas o bien alimentando fórmulas y modelos que describan su comportamiento. Dicho de otra forma, haciendo análisis visual o análisis numérico, también conocido como analítica. Es importante hacer notar que el análisis visual debe ser sustentado por una forma de analítica, pues la más sencilla gráfica de barras, de pie o de Pareto, es resultado de transformaciones matemáticas básicas como conteos o clasificaciones. Podemos afirmar entonces que la forma en la que se obtiene valor de los datos resulta de aplicar alguna forma de analítica, y en contrapartida la analítica requiere de los datos como un vehículo precisa de algún tipo de combustible que lo impulse.
Podemos afirmar, en forma intuitiva, que entre más datos estén disponibles para hacer analítica, mejores o más precisos resultados pueden ser generados, motivo por el cual podríamos decir que la analítica y los grandes volúmenes de datos están asociados desde hace mucho tiempo, entonces es justo preguntar: ¿porque hasta tiempos muy recientes es que se ha agregado la etiqueta Big para generar este nuevo concepto?, o expresado de otra forma, ¿desde cuándo el Big Data es “Big”? Una parte importante de la respuesta a esta pregunta reside en la capacidad creciente de capturar y registrar mediciones de fenómenos naturales (analógicos) en forma digital. Durante mucho tiempo el proceso de captura y registro de información tenía una elevada intervención humana: se hacía una lectura directa de un dispositivo de medición, se registraba en un medio temporal y posteriormente se ingresaba en una computadora. Este proceso estaba limitado por las capacidades humanas involucradas en el proceso: el número de ocasiones que se podían visitar los medidores, la precisión de las lecturas (se dependía de la agudeza visual para determinar lo que marcaban agujas o manecillas) y la velocidad de escritura con un teclado. Hoy en día existe un sinnúmero de eventos y fenómenos que se capturan, digitalizan, se transmiten y se registran directamente en las computadoras: sonido (música), imágenes (fotografías), desplazamientos de vehículos, temperaturas, consumo de energía eléctrica, signos vitales, etc. Este tipo de información tiene características que debemos considerar para su tratamiento efectivo: su contenido no obedece a una estructura predeterminada; cada lectura representa una cantidad considerable de espacio para almacenarse y se generan en grandes cantidades, pues su producción está al alcance de muchos individuos y dispositivos automatizados. Estas características dejan claro el porqué Big es Big, pero entonces ¿por qué no resolvemos el problema tan sólo aumentando la capacidad de almacenamiento? Porque si únicamente se incrementa el espacio disponible, se puede perder de vista el propósito de obtener el valor que representa su análisis y se entraría en un paradigma de coleccionar datos sin un propósito práctico, con los efectos adicionales de elevar los costos y mantener almacenados grandes de datos que no se sabe si se podrán aprovechar en el futuro.
El paradigma actual de Big Data y Analítica también aborda la forma en la que se puede resolver la paradoja de utilizar las avalanchas de datos generados en la actualidad, para seguir generando valor en forma práctica. El volumen y velocidad con la que se generan los datos demanda un tratamiento análogo al del manejo de grandes cantidades de un líquido: se hace pasar un flujo a través de un filtro o dispositivo que permite obtener un beneficio inicial y posteriormente se almacena para otros usos. En el caso del agua en una planta hidroeléctrica, el paso del agua en una turbina genera energía eléctrica y posteriormente se destina al riego o al consumo humano. En el caso de un flujo de datos, que además tienen la característica de que no siempre son estructurados, se pueden filtrar y valorar utilizando analítica en forma de diversas técnicas matemáticas y estadísticas para identificar patrones, como el reconocimiento facial o hacer inferencias automatizadas de la “intención” de un texto en leguaje natural (conocido como análisis de sentimientos), para luego permitir que el grueso de los datos se coloque en un almacenamiento secundario y se mantenga disponible la valoración de los datos para su uso inmediato. Pero esto no es todo: en el Big Data se incluyen técnicas que permiten aumentar la capacidad de procesamiento, distribuyendo el flujo de información en múltiples procesadores para poder satisfacer la demanda, como en una hidroeléctrica el flujo de agua se distribuye a más de una turbina, con la característica adicional de que la valoración (o calificación) de estos datos permite destinarlos a unidades especializadas de proceso o almacenamiento según sus características, por ejemplo separar las imágenes en fotos de personas, paisajes, etc. El esquema tecnológico que permite hacer esta distribución entre múltiples procesadores se conoce como Map-Reduce y la versión comercial más exitosa de este esquema se llama Hadoop. A todo el modelo de manejar los datos como flujos de fluido se le describe abreviadamente como Stream it, Score it, Store it (dejar que los datos fluyan, se califiquen y se almacenen).
Podemos concluir que Big Data y Analítica son un par indisoluble de un tratamiento innovador para manejar, analizar, calificar y almacenar grandes cantidades de información de todo tipo en forma efectiva y permitiendo la generación de valor del creciente volumen de información relevante para las organizaciones.
Francisco Olvera es director de Expertos de Negocios de SAS.
Artículo publicado en Forbes.