Referencia
- Blázquez-Ochando, M.; Ovalle-Perandones, M.A. (2024). Proyecto de web semántica de autoridades en PARES: extracción y análisis inicial. Revista panamericana de comunicación, 6(1). https://doi.org/10.21555/rpc.v6i1.3121
Comentario
La denominada Web 3.0 o web semántica representa un cambio fundamental respecto a la web de documentos: los datos adquieren significado y sobre ellos se construye conocimiento. El modelo de capas definido por Tim Berners-Lee (conocido como Semantic Web Layer Cake) establece una arquitectura que va desde los identificadores URI hasta los lenguajes de consulta SPARQL, pasando por XML, RDF, RDFS y OWL. En esta arquitectura, los datos expresados con estas tecnologías se denominan datos enlazados (Linked Data), y cuando quedan vinculados a otros conjuntos de datos forman grafos del conocimiento, como el conocido como LOD Cloud.
En el contexto de las instituciones documentales (LAM: Libraries, Archives and Museums), los avances en web semántica en España se han centrado principalmente en las bibliotecas. Son referentes los datos enlazados de la Biblioteca Nacional de España (datos.bne.es), la Biblioteca Virtual Miguel de Cervantes (data.cervantesvirtual.com) o la Biblioteca Escolar Digital del CITA. En el ámbito archivístico, sin embargo, las iniciativas son de menor alcance, aunque existen proyectos destacados en archivos municipales (Arganda del Rey, Burgos) y en el ámbito autonómico (Documentos y Archivos de Aragón: DARA). A nivel europeo, ontologías como OAD, ArDO o RiC-O han permitido desarrollar proyectos en archivos de Italia y Alemania.
El recorrido hacia la interoperabilidad semántica en archivos debe situarse en el modelo Records in Contexts (RiC-CM), de manera similar a como la interoperabilidad semántica en bibliotecas se fundamentó en FRBR. PARES, el Portal de Archivos Españoles, constituye una plataforma fundamental para la recuperación de datos archivísticos. Gestionado por el Ministerio de Cultura, agrupa once archivos de titularidad estatal y, según sus propias estadísticas, supera los 77.000 registros de autoridad para familias, instituciones, personas, actividades, lugares, conceptos, normas y cargos unipersonales.
Metodología: extracción y análisis de autoridades
La investigación se planteó un doble objetivo: describir los tipos de autoridades presentes en PARES hasta finales de 2023, e identificar la red de relaciones que se establecen entre ellas, con el fin de delinear el grafo del conocimiento del portal. Para ello, se emplearon técnicas de web-scraping. El programa, desarrollado en lenguaje PHP con las librerías cURL, DOM y XPath, extrajo sistemáticamente todos los registros de autoridad a partir de sus identificadores numéricos. Cada autoridad cuenta con una URI del tipo:
https://pares.mcu.es/ParesBusquedas20/catalogo/autoridad/[identificador]El programa registró, para cada autoridad, un conjunto amplio de campos: tipología, enlace URI, forma autorizada, términos preferentes y no preferentes, fechas de existencia, lugar de nacimiento, defunción, residencia, lugares genéricos y relacionados, latitud, longitud, historia, conceptos y objetos, atribuciones legales, ocupaciones, funciones relacionadas, términos específicos, fuentes de información, relaciones familiares y asociativas, enlaces externos y documentos relacionados.
Para facilitar la recuperación posterior, se crearon dos campos de indexación: uno con el texto normalizado y sin palabras vacías (para búsqueda por relevancia) y otro con el texto literal (para búsqueda exacta).
Resultados: cuantificación y relaciones
El proceso de extracción, ejecutado el 31 de octubre de 2023, obtuvo 75.443 registros distribuidos por tipología:
Tipo de autoridad | Número de registros |
|---|---|
Personas | 27.447 |
Lugares | 27.004 |
Conceptos | 10.041 |
Instituciones | 9.397 |
Familias | 702 |
Normas / Leyes | 439 |
Cargos unipersonales | 358 |
Funciones | 54 |
Indefinida | 1 |
Las autoridades personales y los lugares constituyen aproximadamente el 72% del total de entradas, con más de 27.000 registros cada uno. Los conceptos e instituciones representan el 13% y el 12% respectivamente. El resto de tipologías tiene una presencia testimonial.
El análisis de las relaciones entre autoridades reveló que el centro del grafo son las autoridades personales, que actúan como pivote para la mayoría de los tipos de relaciones: relaciones familiares (9.614), asociativas (33.378), ocupaciones (35.295), conceptos y objetos (56.643), lugares relacionados (48.371) y fuentes de información (1.390). Los lugares constituyen el otro eje fundamental, con presencia significativa en las relaciones con personas, instituciones y normas.
Entre los hallazgos más significativos:
- Preponderancia de personas y familias. La alta frecuencia de relaciones familiares (9.614) permite analizar lazos familiares, vida social y genealogía.
- Fuerte interconexión lugares-personas. Las 48.371 relaciones entre lugares y personas subrayan la importancia de la geolocalización y el contexto geográfico para la comprensión del patrimonio histórico.
- Relaciones asociativas entre personas e instituciones. Las 33.378 relaciones asociativas sugieren una compleja red de interacciones sociales y organizacionales.
- Baja proporción de relaciones con fuentes de información. Solo 1.390 relaciones con fuentes indican una infrautilización de las referencias documentales en las fichas descriptivas.
- Escasa interrelación de términos específicos. Vinculados casi exclusivamente a los conceptos, no se emplean sistemáticamente en la descripción de familias, lugares, personas o normativas.
Discusión: hacia el grafo del conocimiento
En el contexto de los LAM, los puntos de acceso y las autoridades han sido históricamente una preocupación central para los profesionales. Gracy (2015) defiende que, en las descripciones archivísticas, el análisis de frecuencias de puntos de acceso controlados e incontrolados puede servirse de tecnologías semánticas para desarrollar métodos analíticos enriquecidos para personas, familias, organizaciones, nombres geográficos u otras entidades.
Niu (2016) plantea que los proyectos que han implementado linked data para materiales archivísticos confirman que se mejoran tanto las descripciones como la recuperación de información. Este enfoque representa un gran potencial para el enriquecimiento efectivo y el incremento de la interoperabilidad de los datos archivísticos.
Sin embargo, como señalan Marciano et al. (2018), la producción y el consumo de corpus documentales se ha visto influido por tendencias sociales e industriales centradas en los datos, que guardan poca relación con los métodos archivísticos más tradicionales. La transición hacia modelos basados en datos enlazados requiere, por tanto, un esfuerzo de adaptación metodológica.
Conclusiones
La principal conclusión del estudio es que las relaciones conceptuales dominantes en PARES se producen entre personas y lugares, y entre conceptos e instituciones. Esto demuestra que en el grafo semántico del portal tiene una importancia destacada la geolocalización y la comprensión del contexto geográfico de las autoridades. Las relaciones entre personas y familias permiten analizar la vida social y la genealogía, mientras que las relaciones asociativas entre personas e instituciones abren la puerta a la minería de datos para descubrir nuevos patrones y conexiones inesperadas.
La investigación también revela carencias significativas: las autoridades menos relacionadas son las funciones y los cargos unipersonales, cuya conexión está intrínsecamente ligada a las instituciones y personas. Los términos específicos tienen una escasa interrelación con las autoridades, vinculados casi exclusivamente a los conceptos. Según la estructura de las fichas descriptivas, los conceptos y términos específicos configuran un lenguaje controlado a modo de tesauro con organización jerárquica, pero no parece haber sido empleado de forma sistemática en la descripción de familias, lugares, funciones, personas o normativas.
Con la descripción de las autoridades y la red de relaciones se ha delineado el grafo del conocimiento de PARES, sentando las bases para futuros desarrollos en web semántica archivística en España. Este trabajo constituye un primer paso hacia la publicación de estos datos como datos enlazados, contribuyendo así a la integración del patrimonio documental español en la nube de datos abiertos.
Materiales de la investigación
- Blázquez-Ochando, M.; Ovalle-Perandones, M.A. (2024). PHP Scraping PARES. Función de extracción de datos de PARES Autoridades; Prompts de construcción semántica; Resultados SQL. https://github.com/manublaz/phpSrapingPARES