Primeras pruebas del mbot webcrawler

Resumen

La falta de programas webcrawler especialmente diseñados para cubrir las necesidades del investigador en documentación ha desencadenado el desarrollo del programa mbot. Durante su desarrollo se han efectuado múltiples pruebas de ejecución para comprobar el rendimiento y resultados que el programa es capaz de obtener. En el presente documento se expone la primera prueba de funcionamiento en red, que puede ser experimentada por el usuario, tanto con los recursos web establecidos como con los que el lector desee experimentar. El presente artículo forma parte de las investigaciones llevadas a cabo en materia de integración de webcrawlers en aplicaciones documentales, cuyos resultados y experiencias han sido presentadas para la X Conferencia CISCI 2010, véase referencia bibliográfica.

Autor

Manuel Blázquez Ochando
Departamento de Biblioteconomía y Documentación, Facultad de Ciencias de la Documentación, Universidad Complutense de Madrid.
C/Santísima Trinidad, 37. CP 28010 Madrid.
Tlfno. +34 913946619
manuel.blazquez@pdi.ucm.es

Versión

Última versión: 2011-02-28
1.0 2011-02-27 Publicación de este documento.

Derechos

Copyright © 2011 del autor.
No se permite la explotación o comercialización del sistema de prueba, excepto el uso académico y divulgativo, siempre bajo derecho de cita, mención del trabajo y su autor. Todos los derechos reservados.

Tabla de contenidos

1. Introducción
2. Métodología
3. Prueba en línea
4. Resultados
5. Conclusiones
6. Bibliografía

1. Introducción

El webcrawler mbot es el primer programa de su clase desarrollado en España. El objetivo de este sistema es la recuperación y extracción de enlaces, imágenes, texto, código fuente, documentos, multimedia y demás elementos que componen las páginas web de los recursos de información y documentación. Esto es el reconocimiento de etiquetas y partes que conforman dicha estructura. El empleo y utilidad de estos programas resulta vital para mejorar los procesos documentales más importantes como la pre-catalogación, catalogación, clasificación, tratamiento de la información, recuperación de información y difusión selectiva. Un ejemplo de integración es el programa Cumulus2, especializado en la descripción y catalogación de fuentes de información en red. En tal caso la integración del webcrawler mbot fue adaptada para recuperar información de utilidad en la catalogación de los recursos, documentos y contenidos de cada fuente. Este proceso reduce el número de campos que el documentalista debe rellenar y en todo caso presenta una información útil para diagnosticar la temática, clasificación o naturaleza de cada recurso.

2. Métodología

La prueba1 de funcionamiento del webcrawler mbot tiene como objetivo medir el número de metadatos, meta-etiquetas, enlaces, documentos, palabras del texto completo, caracteres del código fuente, archivos multimedia, párrafos, títulos y titulares mostrando a la par la información depurada. Estos datos permiten efectuar un contraste del funcionamiento del programa con respecto a otros recursos y webcrawlers pudiendo obtener un diagnóstico de la precisión y calidad de funcionamiento.
La ejecución del webcrawler está restringida únicamente a la URL de la página web que el usuario introduce. Esta limitación restringe los resultados que se obtienen y por lo tanto no han de tomarse como la totalidad del recurso analizado. En sucesivas pruebas, el lector podrá comprobar cómo mbot resuelve un proceso complejo de análisis de un recurso web o bien un análisis cibermétrico extensivo a partir de una semilla de enlaces.

3. Prueba en línea

4. Resultados

A continuación se presentan los resultados obtenidos en diferentes categorías de recursos; centros de investigación, universidades y repositorios institucionales. Los resultados obtenidos indican un reducido uso tanto de las meta-etiquetas como de los metadatos. También se demuestra una escasa aparición de documentos en las páginas de portada. A tenor de las muestras analizadas en las portadas, se caracterizan por una mayor capacidad de enlace, organización y redirección a las principales áreas de contenidos de cada recurso. Ello se puede observar cuando se analizan los titulares que enuncian cada enlace así como en los párrafos, más reducidos y correspondientes a la descripción de los apartados de la página.
En relación a la sindicación de contenidos, no resulta a priori un método de difusión muy utilizado en los recursos analizados. Ello es debido a que no se enlazan correctamente en la cabecera de las páginas empleando la etiqueta link. Sin embargo se encuentran casos en los que el canal de sindicación es enlazado como cualquier otro hipervínculo. En tal caso el programa mbot no efectúa tal distinción en esta primera prueba, pero en sucesivas versiones este aspecto es contemplado, obteniendo importantes resultados, dadas las prácticas más recientes de concentrar estos canales de información en directorios especializados de sindicación de contenidos. Es el caso de los medios de comunicación en prensa, radio y televisión que hacen uso extensivo de este tipo de técnicas.
El tiempo de ejecución del webcrawler mbot en cada caso, depende de varios factores; la disponibilidad del ancho de banda en el momento de la prueba, el tamaño del código fuente y la disparidad de etiquetas utilizadas. De tales factores el más importante para comprender el funcionamiento del programa es la disparidad de las etiquetas utilizadas en cada recurso web. Esto es que, cuantas más etiquetas y más variaciones de su escritura existan dentro del código fuente, más tiempo tardarán las funciones programadas con expresiones regulares en filtrarlas y computarlas en matrizes de datos.
Repositorios institucionales
Recurso web Fecha Metadatos Meta-etiquetas Enlaces Documentos Imágenes Multimedia Canales de sindicación Títulos Titulares Párrafos Código fuente (caracteres) Texto indexado (palabras) Tiempo de carga (microsegundos)
SAO/NASA Astrophysics Data System
http://adsabs.harvard.edu/
2011/02/28 0 0 50 0 7 0 0 1 2 4 15.447 592 0.746547937393
DLA: Digital Library and Archives
http://scholar.lib.vt.edu/
2011/02/28 0 0 45 3 4 0 0 1 15 12 14.782 560 0.773905038834
University of Twente Repository
http://doc.utwente.nl/
2011/02/28 0 0 56 0 4 0 3 1 85 0 21.353 432 0.350924015045
University of Southampton ECS EPrints Repository
http://eprints.ecs.soton.ac.uk/
2011/02/28 0 0 69 16 15 0 0 1 27 3 23.257 707 0.259600162506
Digital.CSIC Repositorio Institucional
http://digital.csic.es/
2011/02/28 0 0 55 0 15 0 1 1 31 9 24.600 606 0.225545883179


Universidades
Recurso web Fecha Metadatos Meta-etiquetas Enlaces Documentos Imágenes Multimedia Canales de sindicación Títulos Titulares Párrafos Código fuente (caracteres) Texto indexado (palabras) Tiempo de carga (microsegundos)
Massachusetts Institute of Technology
http://www.mit.edu/
2011/02/27 0 0 51 0 4 0 0 1 28 1 9.400 160 0.520998954773
Harvard University
http://www.harvard.edu/
2011/02/27 0 4 66 0 16 0 1 1 25 12 21.458 292 1.85179114342
Stanford University
http://www.stanford.edu/
2011/02/27 0 2 65 0 14 0 1 1 52 13 17.855 261 1.59793686867
Berkeley University of California
http://www.berkeley.edu/
2011/02/27 0 1 149 0 13 0 0 1 19 17 22.883 650 1.20001792908
University of Cambridge
http://www.cam.ac.uk/
2011/02/27 0 2 50 1 10 0 0 1 5 11 15.177 315 0.407856941223
UCL London's Global University
http://www.ucl.ac.uk/
2011/02/27 0 2 50 0 12 0 0 1 41 12 17.454 482 0.540066003799
University of British Columbia
http://www.ubc.ca/
2011/02/27 0 0 155 0 13 0 0 1 80 40 45.299 1.201 3.69684100151
University of Toronto
http://www.utoronto.ca/
2011/02/27 0 0 125 1 12 0 0 1 44 1 25.711 500 1.57595491409


Centros de investigación
Recurso web Fecha Metadatos Meta-etiquetas Enlaces Documentos Imágenes Multimedia Canales de sindicación Títulos Titulares Párrafos Código fuente (caracteres) Texto indexado (palabras) Tiempo de carga (microsegundos)
CSIC Consejo Superior de Investigaciones Científicas
http://www.csic.es/
2011/02/24 0 2 130 0 22 0 0 1 33 26 111.971 689 0.730456161499
NIH National Institutes of Health
http://www.nih.gov/
2011/02/24 0 2 114 0 44 0 0 1 4 4 54.026 361 1.12322506142
NOAA National Oceanic and Atmospheric Administration
http://www.noaa.gov/
2011/02/24 4 4 49 0 21 0 1 1 0 2 17.632 272 0.82269390106
MPG Max Planck Gesellschaft
http://www.mpg.de/
2011/02/24 0 0 45 1 10 0 1 1 15 4 17.921 519 1.38414691925
IAEA International Atomic Energy Agency
http://www.iaea.org/
2011/02/24 0 6 95 2 27 0 8 1 65 26 40.821 1.368 1.09346141052

5. Conclusiones

6. Bibliografía