Para entender qué significa realmente "big
data", resulta útil conocer ciertos antecedentes históricos. A
continuación, ofrecemos la definición de Gartner, de aproximadamente 2001 (y
que continúa siendo la definición de referencia): Big data son datos que
contienen una mayor variedad y que se presentan en volúmenes crecientes y a una
velocidad superior. Esto se conoce como "las tres V".
Dicho de otro modo, el big data está formado por
conjuntos de datos de mayor tamaño y más complejos, especialmente procedentes
de nuevas fuentes de datos. Estos conjuntos de datos son tan voluminosos que el
software de procesamiento de datos convencional sencillamente no puede administrarlos.
Sin embargo, estos volúmenes masivos de datos pueden utilizarse para abordar
problemas empresariales que antes no hubiera sido posible solucionar.
Las
"tres V" de big data
Volumen La cantidad de datos importa. Con big
data, tendrá que procesar grandes volúmenes de datos no estructurados de baja
densidad. Puede tratarse de datos de valor desconocido, como feeds de datos de
Twitter, flujos de clics de una página web o aplicación para móviles, o equipo
con sensores. Para algunas organizaciones, esto puede suponer decenas de
terabytes de datos. Para otras, incluso cientos de petabytes.
Velocidad La velocidad es el ritmo al que se reciben
los datos y (posiblemente) al que se utilizan. Por lo general, la mayor
velocidad de los datos se transmite directamente a la memoria, en vez de
escribirse en un disco. Algunos productos inteligentes habilitados para
Internet funcionan en tiempo real o prácticamente en tiempo real y requieren
una evaluación y actuación en tiempo real.
Variedad La variedad hace referencia a los
diversos tipos de datos disponibles. Los tipos de datos convencionales eran
estructurados y podían organizarse claramente en una base de datos relacional.
Con el auge del big data, los datos se presentan en nuevos tipos de datos no
estructurados. Los tipos de datos no estructurados y semiestructurados, como el
texto, audio o video, requieren un preprocesamiento adicional para poder
obtener significado y habilitar los metadatos.