InicioCentro de noticias de LBank
OpenAI finalmente explica por qué ChatGPT no dejaba de hablar sobre goblins
openai-explains-chatgpt-mention-goblins
OpenAI finalmente explica por qué ChatGPT no dejaba de hablar sobre goblins
¿Por qué OpenAI tuvo que incluir "nunca mencionar a los goblins" en su código de producción en ChatGPT? La empresa ha publicado un análisis post-mortem.
2026-04-30 Fuente:decrypt.co

En resumen

  • La personalidad "Nerdy" de OpenAI recompensó las metáforas de duendes, extendiendo esta peculiaridad a todos los modelos GPT a través del aprendizaje por refuerzo.
  • Las menciones de duendes en el modo Nerdy de GPT-5.4 se dispararon un 3.881% en comparación con GPT-5.2, lo que llevó a una investigación interna y a un parche de emergencia en el prompt del sistema.
  • La solución —escribir "nunca hables de duendes" en un prompt de desarrollador— demuestra por qué los parches de prompts del sistema son más rápidos pero más arriesgados que el reentrenamiento.

Si últimamente le pediste ayuda a ChatGPT con la codificación y te respondió llamando a tu error un "pequeño y travieso gremlin", no te lo estás imaginando. El modelo desarrolló una auténtica obsesión por las criaturas de fantasía —duendes, gremlins, mapaches, trolls, ogros y, sí, palomas— y OpenAI publicó un informe completo sobre cómo ocurrió.

La versión corta: una señal de recompensa diseñada para hacer que ChatGPT fuera más juguetón se descontroló, y los duendes se multiplicaron.

La historia de los duendes solo se hizo pública porque los usuarios de Reddit detectaron la línea "nunca menciones a los duendes" en un prompt de sistema filtrado de Codex en GitHub.

La publicación se volvió viral antes de que OpenAI publicara su propia explicación.

Cómo la personalidad Nerdy generó una infestación de duendes

Según OpenAI, el rastro comienza con GPT-5.1, lanzado el pasado noviembre. Fue entonces cuando OpenAI introdujo la personalización de personalidad, permitiendo a los usuarios elegir estilos como Amigable, Profesional, Eficiente y Nerdy. La personalidad Nerdy venía con un prompt de sistema que le indicaba al modelo que fuera nerd y juguetón, que "socavara la pretensión mediante el uso lúdico del lenguaje", y que reconociera que "el mundo es complejo y extraño".

Ese prompt, resultó ser un imán de duendes.

Durante el entrenamiento de aprendizaje por refuerzo, la señal de recompensa para la personalidad Nerdy puntuó sistemáticamente más alto las respuestas que contenían metáforas de criaturas. En el 76.2% de los conjuntos de datos auditados, las respuestas con "duende" o "gremlin" recibieron mejores calificaciones que las mismas respuestas sin ellas. El modelo aprendió: el capricho equivale a recompensa.

Las menciones de duendes se dispararon en GPT-5.4, con la personalidad Nerdy mostrando un aumento del 3.881% en comparación con GPT-5.2.

El problema es que el aprendizaje por refuerzo no mantiene los comportamientos aprendidos cuidadosamente contenidos. Una vez que un tic de estilo es recompensado en un contexto, se extiende a otros a través de un ciclo de retroalimentación: el modelo genera resultados cargados de criaturas, esos resultados se reutilizan en los datos de ajuste fino, y el comportamiento se profundiza en todo el modelo, incluso sin que el prompt Nerdy esté activo.

Nerdy representó solo el 2.5% de todas las respuestas de ChatGPT. Fue responsable del 66.7% de todas las menciones de "duendes". Debido a los métodos de OpenAI, la prevalencia de duendes y gremlins aumentó constantemente a lo largo del progreso del entrenamiento cuando la personalidad Nerdy estaba activa.

Incluso sin la personalidad Nerdy, las menciones de criaturas aumentaron gradualmente, evidencia de contaminación cruzada a través de datos de ajuste fino supervisados.

GPT-5.5 ya estaba demasiado lejos

Cuando OpenAI encontró la causa raíz, GPT-5.5 ya estaba en pleno entrenamiento, y había absorbido una familia completa de palabras relacionadas con criaturas. Una auditoría de datos marcó no solo duendes y gremlins, sino también mapaches, trolls, ogros y palomas como lo que la compañía llamó "palabras tic". ("Ranas", para los curiosos, eran en su mayoría legítimas).

El primer pico medible: las menciones de duendes aumentaron un 175% y las de gremlins un 52% después del lanzamiento de GPT-5.1.

Incluso el científico jefe de OpenAI, Jakub Pachocki, recibió un duende cuando pidió un unicornio en arte ASCII.

OpenAI retiró la personalidad Nerdy en marzo y eliminó las señales de recompensa afines a criaturas de futuros entrenamientos. Pero GPT-5.5 ya había comenzado su ciclo de entrenamiento. La solución de la compañía para Codex —su agente de codificación— fue simplemente añadir una línea al prompt del sistema del desarrollador que decía: "Nunca hables de duendes, gremlins, mapaches, trolls, ogros, palomas u otros animales o criaturas a menos que sea absoluta e inequívocamente relevante para la consulta del usuario".

Alguien en OpenAI lo añadió al código de producción y siguió con su día.

El problema del parche de prompt del sistema

Pero, ¿por qué OpenAI eligió este camino?

Reentrenar un modelo del tamaño de GPT-5.5 para eliminar una peculiaridad de comportamiento es caro y lento. Un ajuste de prompt del sistema toma minutos. Las empresas de toda la industria recurren primero al parche de prompt porque es la opción de bajo costo y despliegue rápido cuando las quejas de los usuarios aumentan.

Pero los parches de prompt conllevan sus propios riesgos. No solucionan el comportamiento subyacente, sino que solo lo suprimen. Y la supresión puede tener efectos secundarios.

La situación de los duendes de OpenAI es un ejemplo relativamente benigno. La versión más aterradora de esta dinámica se desarrolló con Grok el año pasado. Después de que xAI implementara una actualización de prompt del sistema que le decía a Grok que tratara los medios como sesgados y "no dudara en hacer afirmaciones políticamente incorrectas", el chatbot pasó 16 horas llamándose a sí mismo "MechaHitler" y publicando contenido antisemita en X. La solución fue otro cambio de prompt, que rápidamente corrigió en exceso de tal manera que Grok comenzó a señalar antisemitismo en fotos de cachorros, nubes y su propio logotipo. Una ingeniería de prompts desesperada que cascada en una ingeniería de prompts aún más desesperada.

El parche de los duendes no ha causado nada tan dramático. Pero OpenAI admite que GPT-5.5 se lanzó con la peculiaridad subyacente intacta, simplemente suprimida en Codex. La compañía incluso publicó un comando para eliminar las instrucciones que suprimen a los duendes si los usuarios quieren que las criaturas regresen.

Por qué las empresas ocultan sus prompts del sistema

Ocultar u ofuscar el prompt completo de su sistema es típico en la industria de la IA. Las empresas tratan los prompts del sistema como secretos comerciales por varias razones: protección de la propiedad intelectual, ventaja competitiva y seguridad. Si un "jailbreaker" conoce las reglas exactas que sigue un modelo, sortearlas se vuelve trivialmente más fácil.

También hay una cuarta razón que las empresas no anuncian: la gestión de la imagen. Una línea que diga "nunca menciones a los duendes" no inspira confianza en la tecnología subyacente. Publicarlo requiere sentido del humor o una fuerte cultura de investigación, o ambas.

OpenAI afirma que la investigación produjo nuevas herramientas internas para auditar el comportamiento del modelo y rastrear las peculiaridades de comportamiento hasta sus raíces de entrenamiento. Los datos de entrenamiento de GPT-5.5 han sido limpiados de ejemplos afines a criaturas. La próxima generación del modelo debería llegar libre de duendes, a menos que, por supuesto, algo más sea recompensado por razones que nadie comprende todavía.