Este capítulo, de autoría conjunta Ana Lucía Nunes de Sousa y Tania Lucía Cobos, fue publicado en el libro “Métodos y prácticas en el estudio de la comunicación” (2020), editado por la Editorial Fragua. El capítulo se encuentra disponible libremente en PDF e incluye imágenes y bibliografía.
1. Introducción
Los constantes avances de las tecnologías de información y comunicación presentes en Internet, particularmente los algoritmos desarrollados por las grandes compañías tecnológicas como Facebook, Twitter, Google, entre otras, han favorecido la generación de enormes volúmenes de datos, estructurados, semiestructurados y no estructurados, almacenados en bases de datos públicas y privadas, a las que genéricamente se les ha llamado Big Data. El aparecimiento de estas grandes bases de datos transformó a internet en un amplio campo para la investigación científica y social. Las bases de datos generadas en el mundo virtual pueden ser exploradas y explotadas para analizar complejos fenómenos sociales y culturales abordados desde cualquier perspectiva, incluyendo la comunicación y el periodismo.
De acuerdo a Hadi et al (2015: 16) el término Big Data fue introducido al mundo de la computación por Roger Magoulas de la agencia O’Reilly Media en el 2005, para referirse a una gran cantidad de datos que las técnicas tradicionales de gestión de datos no podían administrar y procesar debido a su complejidad y tamaño. De forma general, el Big Data está compuesto de numerosas piezas de información que pueden ser cruzadas, comparadas, agregadas y desagregadas a nivel de profundidad. Pese a no haber aún una definición rigurosa, Mayer-Schönberger y Cukier (2013: 17) apuntan a que el Big Data o los datos masivos “se refieren a cosas que se pueden hacer a gran escala, pero no a una escala inferior, para extraer nuevas percepciones o crear nuevas formas de valor, de tal forma que transforman los mercados, las organizaciones, las relaciones entre los ciudadanos y los gobiernos, etc”.
Al Big Data se le han identificado cinco grandes características llamadas las 5V que son: volumen (volumen), variedad (variety), velocidad (velocity), veracidad o validez (veracity or validity) y valor (value). Volumen hace referencia a su enorme tamaño; variedad a la diversidad de tipos de datos y fuente de los datos; velocidad a la rapidez con la que estos se generan; veracidad o validez a la garantía de calidad de los datos o a su autenticidad y credibilidad; y valor a la utilidad o beneficio que obtienen de ellos sus propietarios al explotarlos (Hadi et al, 2015: 20 y Marr, 2016).
Si bien es cierto, la creación de tales bases de datos masivas responde, en principio, a los intereses comerciales y de mercadeo por parte de las empresas multinacionales que desarrollan estas tecnologías, es innegable que su captura, almacenamiento, compartición, análisis y visualización en búsqueda de patrones repetitivos que permitan determinar correlaciones y construir modelos predictivos ha permeado a escala planetaria en casi prácticamente cualquier esfera de la vida del ser humano: estrategias de mercadeo, comercio electrónico, telecomunicaciones, gobierno electrónico, procesos electorales, salud pública y en otros campos, el científico y dentro de este, el que atañe a este trabajo, la comunicación y el periodismo. También hay que tener presente que el Big Data afronta grandes retos: ética en la captura de los datos, privacidad, actualización, sesgo, entre otros.
Seguir leyendo: Tania Lu