Powered By Blogger

jueves, 12 de abril de 2012

Big Data (I): Historia del dato


Big Data se ha convertido en el nuevo mantra de las Tecnologías de la Información IT. El 90% de los datos de todo el mundo se han creado en los últimos dos años. El 80% de los datos mundiales son no estructurados, es decir, no están en bases de datos al uso. Solo el 20% de todos los datos está disponible para sistemas tradicionales. Las empresas se enfrentan a enormes desafíos en la gestión del aumento de la información ya que las tecnologías tradicionales de IT se quedan cortas. ¿Cómo hemos llegado a esto? Es Big Data.

Historia del dato

En el principio era el batch o proceso por lotes. El primer proceso de datos ocurrió haciendo estadísticas del censo. Unos operadores creaban fichas perforadas (primera y última vez en que se vieron los datos con los ojos) y el ordenador realizaba los cálculos. Poco después aparecieron los terminales y las cintas, que aún hoy se usan.

A continuación vino el online o proceso transaccional o interactivo. Los usuarios empezaron a interaccionar directamente con las máquinas. Esto supuso una revolución ya que no eran operadores los que introducían los datos sino los mismos usuarios. Estos usuarios eran empleados de la empresa y en seguida los mismísimos clientes. De pronto el interactivo pasó a ser prioritario relegando al batch a la noche. Nada era más importante que atender al usuario y darle el mejor tiempo de respuesta, idealmente por debajo de 1s. Todos los recursos de computación debían estar al servicio del online. Durante el día ningún proceso estaba permitido en una instalación de IT ya que podía perturbar el sacrosanto online.

Pero los procesos nocturnos seguían existiendo. En el catalogo de procesos batch estaba copiar ficheros, consolidar datos, realizar copias de seguridad y crear informes. Así como una transacción online movía algunos registros de algunas bases de datos, los procesos batch movían cantidades ingentes de registros pertenecientes a todas las bases de datos de la empresa. El batch seguía creciendo.

Pronto resultó que los ejecutivos primero y el resto de los usuarios después demandaban más informes. En efecto, teniendo todos los datos a su alcance, se preguntaban ¿vendemos más en el norte? ¿vendemos más por la mañana? ¿quién hace las compras más baratas? Los programadores de IT escribían programas que generaban los informes que les pedían. El tiempo medio variaba de días a semanas. Para cuando el informe estaba listo, las necesidades habían cambiado.

Y los ordenadores fueron creciendo. Al principio, cada nueva generación de un producto suponía un alivio para los clientes ya que podían hacer más con menos. Pero, con el tiempo, el crecimiento fue tal que con cada nuevo ordenador, la empresa necesitaba un modelo más bajo de la gama. Empezaba a sobrar capacidad de proceso.

El online seguía creciendo y seguía siendo sagrado. Un banco podía procesar muchos millones de transacciones online. Pero el batch crecía más deprisa. Aparecieron nuevas herramientas de consulta o queries. Un usuario podía crear sus propios informes sin contar con los programadores de IT. Con el problema de que un query mal diseñado cruza millones de registros de varias tablas sin un control de rendimiento. Los usuarios submitían consultas que colapsaban los ordenadores. El jefe de IT se plantaba y bloqueaba las consultas durante el día porque perjudicaban el online.

La necesidad de consultas se hacía más imperiosa y los ejecutivos necesitaban más y mejor información para tomar decisiones. De modo que se empezaron a crear bases de datos de consultas. Por la noche, como parte del batch, se copiaban tablas a otras bases de datos, se generaban índices y se cocinaban para que las consultas pudieran ser ágiles. Había comenzado el datawarehouse, los datamars o la analítica de negocio.

El mundo transaccional llamado OLTP (On-Line Transactional Processing) había dado paso al OLAP (On-Line Analytical Processing). El análisis de grandes bases de datos dejaba de ser nocturno y se hacía diurno.

Mientras, los ordenadores seguían creciendo. Los fabricantes comenzaron a pensar en nuevos mercados ya que el tradicional OLTP apenas consumía máquina. Nuevos players se fueron añadiendo, empresas de software que creaban programas para analizar mejor los datos. Los clientes empezaron a pensar en usar aún mayores cantidades de datos, un objetivo antes impensable. El mercado de las consultas de grandes bases de datos comenzaba a estar maduro.

Había nacido Big Data.





No hay comentarios: