Se acabó el experimento “friki”: OpenAI frenó a ChatGPT tras su obsesión con goblins

Síguenos en

Quien pasa horas revisando un mismo tema hasta dominar cada detalle suele acabar recibiendo una etiqueta que dice más sobre su intensidad que sobre su rareza. Ese comportamiento encaja con lo que se llama ser friki, un perfil que no se define por un gusto concreto, sino por la forma en que una persona se acerca a él y lo convierte en parte habitual de su vida.

La palabra describe a alguien que dedica tiempo, atención y energía a campos que pueden ir desde la tecnología hasta la cultura popular, sin necesidad de que esos intereses coincidan con los de la mayoría. Esa dedicación lleva a conocer datos y matices que no aparecen en una aproximación superficial. Esa forma de repetir referencias hasta integrarlas en cualquier explicación no es exclusiva de las personas y puede aparecer también en sistemas que aprenden a responder siguiendo patrones muy concretos.

OpenAI explicó el origen de las referencias extrañas

OpenAI explicó que las referencias a goblins en ChatGPT surgieron por incentivos en el entrenamiento asociados a una personalidad nerdy, que acabaron extendiéndose al comportamiento general del modelo. El fenómeno, por lo tanto, no apareció como una decisión consciente del sistema, sino como el resultado de pequeñas recompensas acumuladas durante el aprendizaje. El problema se hizo evidente cuando ese estilo dejó de limitarse a un modo concreto y empezó a aparecer en respuestas normales. La empresa analizó el caso y detalló cómo ese tipo de lenguaje se propagó dentro del sistema.

La supervisión continua resulta necesaria para ajustar el sistema

El uso de estas referencias llamó la atención de usuarios reales que se encontraron con respuestas extrañas en tareas habituales. Barron Roth, product manager de 32 años citado por The New York Times, explicó que el sistema describió un fallo en su código como “un pequeño goblin clásico”, y añadió que llegó a contar más de 20 menciones sin haberlas pedido.

Otros ejemplos mostraban al propio chatbot definiéndose como “un goblin con una linterna” al revisar errores. Estos casos coincidieron con un aumento del fenómeno, ya que OpenAI detectó que en su modelo GPT-5.4 las menciones a goblins crecieron un 3.881% dentro del modo nerdy.

El sistema reforzó metáforas al recibir recompensas

Ese incremento no surgió por azar. La empresa explicó que el sistema de entrenamiento premiaba ciertos rasgos del lenguaje, y entre ellos aparecían metáforas con criaturas. La personalidad nerdy se diseñó para dar respuestas con entusiasmo, referencias culturales y un tono más expresivo, pero el modelo interpretó esas instrucciones de una forma más concreta de lo esperado. En lugar de limitarse a un estilo general, empezó a repetir un tipo de imagen muy específico. El resultado fue un patrón que se reforzaba cada vez que el modelo recibía retroalimentación positiva.

El problema creció cuando ese comportamiento dejó de estar contenido. Aunque la personalidad nerdy era opcional, las referencias empezaron a aparecer en respuestas donde ese modo no estaba activado. OpenAI explicó que este tipo de expansión ocurre cuando ciertos resultados se reutilizan en fases posteriores del entrenamiento, lo que hace que un rasgo concreto se extienda a otros contextos. Así, una característica pensada para un perfil concreto terminó influyendo en el conjunto del sistema.

OpenAI retiró el modo y limitó ese lenguaje

Ante la repetición de casos, la empresa decidió intervenir. OpenAI eliminó por completo la personalidad nerdy en marzo y añadió una instrucción explícita en su sistema para evitar menciones a criaturas salvo que fueran relevantes. Esa instrucción, citada por The New York Times, indica que el modelo no debe hablar de “goblins, gremlins, mapaches, trolls, ogros, palomas u otras criaturas” si no es necesario. Aun así, la compañía reconoció que el efecto persistió durante un tiempo porque el entrenamiento de versiones posteriores ya estaba en marcha antes de detectar el origen del problema.

La supervisión continua resulta necesaria para ajustar el sistema

La explicación completa llegó en un texto publicado por la propia OpenAI, donde detalló cómo se generó este comportamiento. Según la empresa, “el comportamiento del modelo está moldeado por muchos pequeños incentivos”, y en este caso uno de ellos favoreció de forma excesiva ese tipo de metáforas. El sistema no tenía intención de adoptar una identidad concreta, sino que respondía a patrones que había aprendido a repetir. Esa dinámica explica por qué el lenguaje apareció incluso en contextos donde no encajaba.

El caso dejó una conclusión clara dentro del equipo de investigación. OpenAI señaló que este tipo de situaciones muestran hasta qué punto resulta difícil anticipar todas las respuestas de un modelo de inteligencia artificial. También destacó la importancia de detectar rápidamente estos patrones para poder corregirlos antes de que se extiendan. Esa necesidad de supervisión continua encaja con el propio funcionamiento del sistema, que aprende a partir de recompensas y puede trasladar esos aprendizajes a situaciones que no estaban previstas.

Aumento masivo — La compañía contó que las alusiones a criaturas surgieron por recompensas durante el entrenamiento asociadas a un estilo entusiasta, que acabaron extendiéndose más allá del modo para el que se diseñaron

OpenAI explicó el origen de las referencias extrañas

El sistema reforzó metáforas al recibir recompensas

OpenAI retiró el modo y limitó ese lenguaje