Experimento de web scraping en medios de comunicación
Experimento de web scraping en medios de comunicación
Prof. Manuel Blázquez Ochando. Departamento de Biblioteconomía y Documentación. Facultad de Ciencias de la Documentación. Universidad Complutense de Madrid. manublaz@ucm.es - mblazquez.es
Objeto
El experimento de web scraping en medios de comunicación tiene como objetivo estudiar las posibilidades de extracción masiva de datos y contenidos para generar big data. La prueba ha sido desarrollada en el marco del Simposio sobre "algoritmos y big data" del I Congreso Internacional Comunicación y Pensamiento organizado por la Facultad de Comunicación de la Universidad de Sevilla.
Consideraciones
Se ha creado un programa de scraping para analizar las portadas de los sitios web de El Mundo, El País, ABC y RTVE recopilando todas las noticias disponibles. Ello es posible al empleo de expresiones regulares y reconocimiento de elementos por patrones, que permiten identificar los contenidos de mayor interés para el investigador (título, enlace, texto principal de las noticias). En esta demostración se puede observar un sistema doble de scraping. Por una parte se recuperan todos los enlaces y titulares del sitio web y en segundo lugar se permite al usuario el análisis de las noticias que desee, obteniendo el texto completo de la fuente original.
Aclaraciones
El experimento ha sido elaborado con fines estríctamente académicos y científicos.
El autor no se hace responsable de usos indebidos por parte de terceros.
El experimento no almacena información del usuario, ni de sus consultas.