Hiperproductivos, hipermediocres

Prioriza elDiario.es en Google

Hace unas semanas, los científicos sociales Per Engzell y Nathan Wilmers decidieron automatizar completamente el proceso de producción de artículos científicos en su campo de especialización, usando Large Language Models (LLM) de principio a fin. Para hacerlo, diseñaron un flujo de trabajo completo y agentes especializados en las diversas tareas, un pequeño ejército de minions investigadores en una cadena de montaje. A partir de una instrucción inicial sencilla para cada artículo, la máquina diseñó y ejecutó 33 trabajos a lo largo de una semana. Literalmente una fábrica de papers. Los resultados del ejercicio se difundieron en un documento de gran profundidad y que ha generado mucho debate entre los colegas del área. En esta entrada, hago referencia a algunas de sus principales conclusiones y a otras evidencias recientes sobre cómo el uso de la IA está transformando la calidad de la producción científica. Dejo para otra ocasión otras consideraciones de tipo medioambiental, ético o político que el uso generalizado de la IA, en la ciencia y fuera, pueda tener.

¿Cómo de buenos son los artículos que produce la fábrica?

La fábrica produjo código limpio y bien anotado, lo que aumenta la transparencia y la reproducibilidad, sin duda buenas prácticas hacia las que la ciencia lleva ya años gravitando. El código, no obstante, tenía errores, pero estos se iban corrigiendo gracias a las múltiples comprobaciones cruzadas de varios agentes, incluidas en el flujo de trabajo diseñado por los autores. Los errores no eran muy distintos de aquellos en los que puede incurrir un investigador humano. Los minions tomaron decisiones analíticas que probablemente difieren de las que hubiera tomado un científico humano que conozca los matices de la literatura y de los datos que se usan, pero que llevaron a caminos en general valiosos. Los artículos generados por la fábrica consiguieron hacer una contribución, aunque fuera pequeña, al conocimiento acumulado sobre el tema y dieron lugar a unos análisis, unas explicaciones de los resultados y una narrativa en general coherentes.

Ahora los problemas. Los agentes que trabajaron en la fábrica elegían de manera sistemática las versiones más conservadoras, con menos riesgo, también más débiles, de cada posible paper. Se aferraban a menudo a ciertas especificaciones e interpretaciones, incluso cuando las alternativas eran igualmente razonables y sustantivamente más interesantes. Además, tuvieron dificultades para hacer conexiones entre literaturas o enfoques diferentes. A los trabajos les faltaba ambición y vuelo científico, según Engzell y Wilmers.

Mediocridad a gran escala

Los autores de The paper factory son científicos sociales excepcionales y valoran la calidad de las contribuciones, humanas o no, con sus gafas excepcionales. Aunque por suerte en algunas convocatorias se valoran y premian los proyectos de alto riesgo pero que puedan dar lugar a ciencia ambiciosa, que pueda hacer contribuciones rupturistas, los incentivos para el científico social mediano, el común de los mortales en el ecosistema científico, al menos en ciencias sociales, son otros. Sabemos que se publica más y con mucha más facilidad si se hacen contribuciones pequeñas, marginales, a temas de investigación sobre los que ya hay teorías asentadas y consensos empíricos bien establecidos. La misma hipótesis de siempre con nuevos datos, una pequeña sofisticación técnica que matiza poco los resultados ya conocidos, un caso de estudio adicional que confirma los resultados ya sabidos... Microcontribuciones de interés, pero con poco valor añadido real. La hiperespecialización en un ámbito muy reducido y bien trillado es mucho más rentable, a efectos curriculares, que la exploración de ideas nuevas, incluyendo las que surgen en diálogo con otras disciplinas.

El uso de los LLM reduce los costes asociados a explorar nuevos temas, a adoptar enfoques alternativos, a generar hipótesis arriesgadas y a desarrollar programas de investigación ambiciosos. Permite tirar de hilos a priori poco rentables que, en su versión humana, consumirían muchos recursos de un equipo investigador y podrían llevar a callejones sin salida, resultados nulos (que tienen menor probabilidad de publicarse) o contribuciones “excéntricas”, que sabemos que se penalizan en los procesos de evaluación.

En principio es muy positivo para la ciencia que no esté castigado explorar caminos poco transitados y la IA permite hacerlo con muy poco esfuerzo. Pero una pregunta pertinente es si estamos dando a los LLM ese uso y fin –que nuestras contribuciones superen nuestras propias limitaciones de tiempo, recursos o capacidad cognitiva y nos ayuden a producir ciencia arriesgada, con potencial para hacer descubrimientos cruciales o inesperados. La sensación, a la vista de las primeras valoraciones que estamos leyendo sobre esta nueva oleada de producción es más bien la contraria, que tal vez esté fomentando producir en masa contribuciones poco ambiciosas, lo que Engzell y Wilmers llaman “mediocridad a gran escala”. Tal vez esta medianidad es un simple reflejo de lo infrecuente y extraordinario que es hacer contribuciones revolucionarias en las ciencias sociales, o tal vez de un sistema de incentivos en ciencia que necesita ajustes adaptados a esta nueva época.

Consecuencias de la inflación de papers para el sistema de evaluación

Los artículos que produjo la fábrica son suficientemente sólidos y convincentes como para que un equipo editorial de una revista internacional de nivel medio o medio-alto decida que pasen el filtro previo y se active la maquinaria de la evaluación por pares. Se han disparado, en general, los envíos a revistas científicas, generando tapones y otras disfuncionalidades, como la cada vez mayor dificultad para encontrar evaluadores comprometidos con la tarea. En otros estudios muy recientes (por ejemplo, aquí o aquí) se ha mostrado que, efectivamente, además, cada vez son más los artículos que están escritos (posiblemente producidos) casi en su totalidad por inteligencia artificial. Aunque no tengo datos al respecto, sospecho que la proporción de evaluaciones que se producen ya con mucha ayuda de la IA está aumentando considerablemente.

Preocupa también en las revistas –y en la comunidad científica en general– el deterioro de la calidad de los datos de encuesta (en el que se basan un gran número de contribuciones en las ciencias sociales) al haberse identificado prácticas fraudulentas (respuestas a encuestas asistidas o directamente generadas por IA o bots que suplantan completamente la identidad de la persona encuestada). También hay evidencia del aumento disparatado del número de referencias inventadas en algunas áreas, con contenidos ficticios que en ocasiones afectan a cuestiones sustantivamente cruciales, como guías clínicas. Nada es indetectable, claro, pero identificar estas prácticas requiere controles cada vez más exigentes técnicamente, que consumen más recursos y que además pueden alimentar cierta sensación de desconfianza generalizada en el sistema.

Por último, se ha señalado la facilidad con la que los LLM optan por resultados que tengan más opciones de ser publicados, por ejemplo porque confirman una hipótesis preferida, o que directamente implementan múltiples especificaciones y seleccionan las más significativas, ajustando las hipótesis y la narrativa teórica ex post. Por supuesto estas prácticas las hemos visto innumerables veces en trabajo netamente humano –y el registro previo de objetivos e hipótesis puede ser un remedio parcial–, pero la capacidad de computación de la IA y sus propios procesos de toma de decisión hace más probable ir tomando caminos que conduzcan a ellas. Recientemente se ha mostrado (aquí) que delegar las decisiones a la IA promueve el comportamiento deshonesto y que los individuos somos más propensos a inducir comportamientos de este tipo en la IA que a acometerlos nosotros mismos.

En un contexto saturado de trabajos técnicamente correctos, al menos en apariencia, y aseados estilísticamente, los evaluadores y editores de revistas pueden empezar a desconfiar de las tradicionales señales del mérito de una contribución, de su calidad objetiva, y empezar a confiar cada vez más en señales de estatus. No es que antes no recurrieran, explícita o implícitamente, a indicadores indirectos (e imperfectos) de mérito, como la institución de procedencia o la reputación de los autores, pero con la masificación y estandarización de la producción este riesgo se vuelve más acuciante.

¿Deben las contribuciones a partir de ahora aportar algo que no pueda hacer un LLM que use datos y métodos estándar? ¿Cómo se debe tratar la coautoría de la inteligencia artificial? ¿Cómo deben las revistas –y los organismos que financian ciencia y evalúan propuestas de investigación, cada vez también más producidas por LLM– actuar cuando identifiquen el uso (sobre todo no declarado) de IA? La calidad de la producción científica en el futuro inmediato dependerá de cómo se regule el uso de estas herramientas y de cómo redefinamos qué es una contribución y qué valor real tiene. En definitiva, de si queremos mediocridad a gran escala o ambición a gran escala.

* Nota: El flujo de trabajo diseñado por Engzell y Wilmers (The paper factory, por Per Engzell y Nathan Wilmers, https://osf.io/preprints/socarxiv/24xfq_v2) está basado en sus propias prácticas científicas y en el tipo de artículos empíricos que suelen producir. Refleja, por tanto, sus criterios sobre lo que es buena ciencia social e invitan a otros académicos a hacer una reflexión crítica sobre qué es una buena contribución científica en su campo y mediante qué caminos se llega a ella, algo que a menudo no se hace explícito en el trabajo empírico.

Sobre este blog

Hiperproductivos, hipermediocres

¿Habéis notado que algunos colegas que, de manera consistente, publicaban cada año dos o tres buenos artículos científicos de repente publican más de diez? No es magia, es la IA