Referencia

  1. Desaire, H.; Chua, A.E.; Isom, M.; Jarosova, R.; Hua, D. (2023). Distinguishing academic science writing from humans or ChatGPT with over 99% accuracy using off-the-shelf machine learning tools. Cell Reports Physical Science. https://doi.org/10.1016/j.xcrp.2023.101426

Comentario

Como estamos comprobando en el panorama de Inteligencia Artificial, los modelos de lenguaje están transformando la relación con la información: desde la capacidad de rastrear la web en tiempo real hasta la inquietante habilidad de engañar a sus operadores. Pero quizás ninguna de esas dimensiones afecta tan directamente al corazón de la actividad académica como la que abordamos hoy: la infiltración de textos generados por IA en la literatura científica. Un reciente estudio liderado por la profesora Heather Desaire, de la Universidad de Kansas, ha demostrado que es posible detectar con una precisión cercana al 100% los artículos científicos escritos por ChatGPT en el campo de las ciencias químicas, abriendo una vía prometedora para preservar la integridad de la comunicación académica. Esto ha trascendido la vía académica y ha llamado nuestra atención.

Los investigadores, habrían sido capaces de crear un detector de texto de inteligencia artificial (IA) para ensayos científicos, que podría distinguir casi al 100% los contenidos escritos por humanos y máquinas. El estudio, publicado en Cell Reports Physical Science, explica que ya existían detectores para textos creados con IA, de aplicación general, pero ninguno funciona particularmente bien en el ámbito de los documentos científicos.

Lo que hace relevante esta investigación no es solo su elevada tasa de acierto, sino la metodología empleada y sus implicaciones para el ecosistema editorial. El equipo de Desaire entrenó su detector utilizando exclusivamente revistas de la American Chemical Society, un corpus altamente especializado. Frente a los detectores de propósito general como ZeroGPT o las propias herramientas de OpenAI, que mostraron un rendimiento mediocre en textos de química, este enfoque de dominio específico logró identificar correctamente el 100% de las introducciones escritas por humanos y el 98% de las generadas por ChatGPT a partir de resúmenes.

El software de detección del equipo, se entrenó utilizando revistas publicadas por la American Chemical Society. Recopilaron 100 introducciones escritas por profesionales y luego programaron a ChatGPT para escribir sus propias introducciones basadas en resúmenes de revistas o simplemente en los títulos de los informes. Cuando el detector de ChatGPT escaneó tres categorías de informes, identificó correctamente las secciones escritas por humanos el 100% de las veces, así como los informes generados a partir de títulos de informes. Los resultados fueron igualmente precisos en informes que se basaban en secciones introductorias, con una tasa de identificación correcta del 98%.

Desde la perspectiva de las Ciencias de la Documentación, este estudio ilustra un principio fundamental: la recuperación de información y el análisis de autenticidad no pueden disociarse del contexto disciplinar. Un modelo entrenado con la literatura de química orgánica detecta patrones estilísticos, terminológicos y retóricos propios de ese campo que los detectores genéricos pasan por alto. Esto sugiere que, en el futuro, la gestión de la integridad editorial requerirá sistemas de verificación adaptados a cada dominio del conocimiento, no soluciones universales.

Otros sistemas de clasificación automática y machine learning, como ZeroGPT y OpenAI, no tuvieron un rendimiento tan bueno en informes relacionados con la química. Esto tiene implicaciones importantes para las revistas científicas que desean prevenir la infiltración de contenido de IA y sus posibles problemas, como la creación de datos falsos.

El uso excesivo de IA podría inundar las revistas con papers de valor marginal y provocar que los trabajos emergentes sean ignorados. Además, existe la preocupación de que estas herramientas de IA, tiendan a inventar hechos y afirmaciones que no son ciertas, cuando su base de conocimientos es insuficiente para responder a las necesidades de sus usuarios.

Aquí radica uno de los puntos más críticos que ya apuntábamos al comentar la capacidad de GPT-4 para engañar en contextos financieros. La "alucinación" factual de los modelos de lenguaje no es un problema menor cuando se traslada al ámbito científico. Un artículo que introduce datos de laboratorio inexistentes o referencias bibliográficas inventadas no solo erosiona la credibilidad de las revistas, sino que puede desviar líneas de investigación hacia callejones sin salida. La detección temprana de este tipo de contenidos se convierte, así, en una función de salvaguarda del método científico mismo.

Por lo tanto, se está volviendo crucial identificar y mitigar la influencia de la IA en las revistas científicas. Desaire enfatiza que las revistas deben liderar la detección de la "contaminación de la IA" y asegurarse de que sus políticas sobre la escritura de IA se cumplan. Aunque algunos argumentan que resistir a la aparición de contenido generado por IA es inevitable, la profesora cree que desarrollar herramientas como esta, permite a los investigadores mantenerse al día en la detección y mitigación de estos problemas. El trabajo de Desaire y su equipo representa un paso alentador en esa dirección. Pero también nos recuerda que la batalla por la integridad científica será una carrera continua. Cada avance en los detectores probablemente será seguido por mejoras en la capacidad de los modelos para imitar el estilo humano, en un ciclo de acción y reacción que ya hemos observado en otros ámbitos de la seguridad digital. Lo que está en juego, sin embargo, es mucho más que la autenticidad de unos artículos: es la confianza en el sistema de comunicación científica como pilar del conocimiento colectivo ¿Dónde se encuentra el límite? ¿Será capaz la IA de crear verdadera Ciencia? ¿Acaso serán indistinguibles las creaciones de la IA de las nuestras?