El entrenamiento “a lo bruto” que provoca fallos en inteligencias artificiales como ChatGPT

Los sistemas de lenguaje natural han aprendido a expresarse a partir de textos tomados de Internet, incluidos aquellos que difunden odio y bulos
— Se puede hackear ChatGPT para que insulte y difunda conspiranoias: “¿Quién se creen estos gilipollas?”

Página web de OpenAI Jonathan Kemper | Unsplash

15 de febrero de 2023 22:42h Actualizado el 16/02/2023 05:30h

Entrenar un modelo de inteligencia artificial como ChatGPT es extremadamente caro. La tecnología detrás de estos sistemas se basa en el procesamiento de enormes cantidades de datos para detectar patrones y producir un resultado. Ese resultado puede ser una decisión automática basada en el análisis de las experiencias anteriores, una predicción de qué puede ocurrir en el futuro o la generación de un contenido nuevo. Para crear su IA generativa de textos, OpenAI hizo que sus sistemas estudiaran innumerables contenidos de Internet, desde estudios académicos hasta comentarios en foros y redes sociales. De esta forma ChatGPT aprendió cómo se expresan los humanos cuando escriben y ahora es capaz de replicarlo.

Para procesar esa ingente cantidad de textos fue necesaria una capacidad de computación que solo un puñado de empresas pueden poner encima de la mesa. Una de ellas es Microsoft. Este es el motivo por el que el acuerdo alcanzado en 2019 entre la multinacional y OpenAI se considera clave en el salto tecnológico de esta última. El pacto incluyó una inversión de 1.000 millones de dólares de Microsoft en OpenAI, pero también un acceso preferencial y gratuito a la potencia de cálculo de los servidores de la empresa fundada por Bill Gates.

Ahora ese acuerdo ha dado sus frutos. ChatGPT se ha convertido en la primera IA de uso masivo de la historia (fuentes no oficiales aseguran que se acerca ya a los 100 millones de usuarios) y ha permitido a Microsoft hacer un asalto frontal e inesperado al negocio de Google. No obstante, aún es una tecnología inmadura. Como demostró este medio, es posible provocar que ChatGPT se salte las políticas de seguridad de OpenAI para que insulte y difunda odio y conspiranoias. En otro artículo reciente, el New York Times recogió la preocupación de los especialistas en desinformación por el riesgo de que estos sistemas se conviertan en amplificadores de desinformación, distribuyendo bulos como el del pucherazo electoral de 2021 que intentó colar Donald Trump.

En su afán para que la capacidad de expresión de la IA sea lo más parecida posible a la humana, OpenAI (y Google, que ultima un sistema muy similar) han incluido en su base de datos toda clase de textos, un gran número de ellos procedentes de las redes sociales. También aquellos que reproducen comentarios indeseados. Para evitar que los sistemas muestren la parte más tóxica de Internet en su interacción con sus usuarios, sus desarrolladores han configurado filtros para que la IA modere su discurso. Pero todo lo nocivo de las redes que la sociedad lleva una década intentado controlar está grabado en su base de datos.

¿Por qué OpenAI ha entrenado a su IA a insultar o a defender teorías de la conspiración, para luego programarla para que mantenga ocultas esas capacidades? Se trata de una consecuencia del método de entrenamiento. “Estos modelos se entrenaron con grandes cantidades de datos de Internet escritos por humanos, incluidas conversaciones”, explica OpenAI: “Es importante tener en cuenta que esto es un resultado directo del diseño del sistema (es decir, maximizar la similitud entre los resultados y el conjunto de datos con el que se entrenaron los modelos) y que dichos resultados pueden ser inexactos, falsos o engañosos en ocasiones”.

“OpenAI utiliza un algoritmo súper sofisticado. Pero claro, está chupando datos a lo bruto de Internet”, resume Ana Valdivia, investigadora del Instituto de Internet de la Universidad de Oxford especializada en Inteligencia Artificial. “Por mucho que intenten filtrar todo y usen algoritmos muy avanzados, es como intentar tapar con las manos un escape de agua, que cuando lo haces te sale otro, y luego otro. Primero actúas para que no sea racista, luego para que no sea sexista... pero al final el sistema va a reproducir cosas como las que estamos viendo”.

“Ahí es donde está la paradoja. Es en redes sociales donde más texto se está publicando, por lo que si tú quieres un algoritmo que reproduzca lo que dicen las personas vas a tirar de texto de redes sociales. Es donde más interacciones hay y el lenguaje es más natural. Pero por el otro lado, también es donde hay más discriminación y odio”, añade Valdivia.

¿Otro entrenamiento era posible?

Si su éxito se consolida, las inteligencias artificiales generativas de texto pueden cambiar por completo la experiencia digital. La decisión de Microsoft de incluirla en su buscador ha impulsado a Google a hacer lo mismo, con lo que en unas semanas serán un elemento habitual de una de las herramientas más usadas de Internet. Pero el plan de Microsoft es añadir una versión mejorada de ChatGPT a todos sus servicios: a Windows para resolver dudas; a Word para que cree, mejore o concluya los textos del usuario; a Excel para que ofrezca todo tipo de fórmulas para trabajar con datos. Esta iniciativa podría impulsar a los gigantes digitales a desarrollar inteligencias artificiales conversacionales para todas sus herramientas, como le ha ocurrido a Google.

Ante el riesgo de que las brechas de agua de esta tecnología se hagan mucho más palpables, elDiario.es ha preguntado a expertos en este campo si hubiera sido posible evitar que los textos de entrenamiento incluyeran contenidos tóxicos. “Sería mucho, mucho más caro. Quizá al nivel de no hacerlo económicamente viable, especialmente para servir en búsqueda”, explica uno de los especialistas de una de las empresas citadas, que pide quedar en el anonimato por la apuesta tan fuerte que están haciendo su compañía por esta tecnología.

OpenAI estableció algunos filtros a los textos que sus robots extraían de Internet. Pero también lo hizo con algoritmos y sistemas automatizados. “Nuestro sistema de moderación está entrenado para detectar un amplio conjunto de categorías de contenidos no deseados, incluidos los de carácter sexual, de odio, violencia, autolesión y acoso. Este enfoque se generaliza a una amplia gama de taxonomías de contenidos diferentes y puede utilizarse para crear clasificadores de contenidos de alta calidad que superen a los modelos estándar”, explicaban sus investigadores en un documento académico publicado el pasado verano.

El problema es que las máquinas no son buenas detectando los detalles y elementos subjetivos de la expresión humana. Su mal desempeño en esta misión fue advertido por numerosos especialistas en otro debate: cuando la UE estableció los filtros automáticos de contenido para evitar que nada de lo que se subiera a Internet viole el copyright. Como explicaron reputados tecnólogos, los sistemas actuales no pueden diferenciar, por ejemplo, una parodia (un uso legal de contenidos con derechos de autor) de otro que no lo es.

Con los insultos o la desinformación ha ocurrido algo similar. “Además de los múltiples filtros que han incluido en ChatGPT para evitar sexismo y racismo, en base a lo observado, puede inferirse que el criterio de optimización de los textos generados es la coherencia formal y su parecido a los textos generados por humanos”, explica Ariel Guersenzvaig, investigador en ética de la inteligencia artificial y profesor en la facultad de Diseño e Ingeniería en la Universidad de Vic-UCC. “Esto es un criterio específico que deja de lado cuestiones como la evaluación de la veracidad de lo generado, más allá de lo que pueda surgir de los datos de entrenamiento”, recuerda.

“En el caso de los modelos de lenguaje natural se ha elegido un enfoque ”a lo bruto“, cuanto más mejor, sin pensar en que estas fuentes no son ”neutrales“ en el sentido de ser hechos naturales o un reflejo de la sociedad. Estos textos son el producto de dinámicas sociales a lo largo de los años. Estas dinámicas privilegian ciertos contenidos y ofuscan o imposibilitan otros”, expone el profesor.

Muévete rápido y rompe cosas

El “Move fast and break things” (muévete rápido y rompe cosas) fue el eslogan de Facebook cuando la compañía de Mark Zuckerberg era tan solo una startup. Terminó convirtiéndose en el leitmotiv de las grandes tecnológicas surgidas en la primera década de siglo. Lo cumplieron: se movieron rápido y rompieron cosas. Ahora la revolución de la IA parece compartir algunos ingredientes de la misma receta, puesto que tanto Microsoft como Google han reconocido que saben que los modelos de IA que van a incluir en sus herramientas tienen fallos.

Uno de ellos provocó una caída del 10% de la cotización de Google, cuando su IA dio un dato incorrecto durante su presentación. “Esto pone de relieve la importancia de un proceso de pruebas riguroso” para que estos sistemas “cumplan un alto nivel de calidad, seguridad y están basadas en la información del mundo real”, justificó la multinacional. De forma similar se ha expresado Microsoft: “Hemos puesto todo nuestro empeño en implantar medidas de protección contra contenidos nocivos. Nuestros equipos trabajan para resolver problemas como la desinformación, el bloqueo de contenidos, la seguridad de los datos y la prevención de los contenidos nocivos”.

Sin embargo, los síntomas de inmadurez de esta tecnología no han parado los planes para implantarla de inmediato. “Está claro que tienen fallos e incluso se pueden hackear, pero mira toda la atención que ha acaparado. Al fin y al cabo todas las tecnológicas y las startups funcionan así. Tu creas una startup para que llegue Microsoft, te la compre y te haga rico”, expone Valdivia: “Más que crear un algoritmo de texto automático que vaya a cambiar el mundo, el objetivo final es vender el producto y ganar dinero. Si el producto es bueno para la sociedad o no, si puede tener mal consideradas desde la perspectiva ética, queda en un segundo plano”.

Guersenzvaig por su parte concluye recordando la “falaz noción de la inevitabilidad de los desarrollos tecnológicos”, que funciona en dos sentidos. “Uno es que la tecnología X es inevitable en sí misma, el otro es que la tecnología X solo puede darse de la forma concreta en la que se ha ideado y lanzado al mercado. Es decir, no solo los generadores de texto no son inevitables sino que los generadores de texto no solo pueden ser como ChatGPT”.

–––––––––––––

Antes de que dejes de leer...

elDiario.es se financia con las cuotas de 60.000 socios y socias que nos apoyan. Gracias a ellos, podemos escribir artículos como éste y que todos los lectores –también quienes no pueden pagar– accedan a nuestra información. Pero te pedimos que pienses por un momento en nuestra situación. A diferencia de otros medios, nosotros no cerramos nuestro periodismo. Y eso hace que nos cueste mucho más que a otros medios convencer a los lectores de la necesidad de pagar.

Si te informas por elDiario.es y crees que nuestro periodismo es importante, y que merece la pena que exista y llegue al mayor número posible de personas, apóyanos. Porque nuestro trabajo es necesario, y porque elDiario.es lo necesita. Hazte socio, hazte socia, de elDiario.es.

Etiquetas