La inteligencia artificial a veces “alucina”, es decir, ofrece respuestas que no son ciertas y las inventa con una facilidad sorprendente. Estas respuestas pueden parecer coherentes porque se expresan con confianza, pero eso puede llevar a situaciones problemáticas, como que te sugiera poner pegamento en una pizza para mantener el queso en su lugar.
Este fenómeno de las “alucinaciones” no es un error misterioso. En OpenAI están muy conscientes del problema y acaban de publicar un informe que analiza por qué ocurre. Según explican, las alucinaciones surgen debido a “presiones estadísticas” durante las fases de entrenamiento y evaluación de los modelos.
El problema radica en que los procesos de entrenamiento incentivan que la IA intente “adivinar” la respuesta, en lugar de reconocer que a veces debería admitir incertidumbre, como cuando un estudiante ante una pregunta difícil en un examen elige una opción al azar con esperanza de acertar. OpenAI señala que durante el entrenamiento se fomenta que la IA siempre intente responder, incluso si eso significa inventar algo, en vez de optar por un simple “no lo sé”.
¿Cómo pasa esto? En la etapa inicial, llamada preentrenamiento, los modelos aprenden a partir de grandes volúmenes de texto cómo se distribuyen las palabras y frases en el lenguaje. Aunque los textos usados estén libres de errores, las técnicas estadísticas que se aplican pueden hacer que el modelo cometa fallos. Generar un texto válido es mucho más complejo que responder con un sencillo sí o no a una pregunta.
Estos modelos aprenden a “hablar” prediciendo la siguiente palabra en una frase, pero durante este proceso no reciben retroalimentación clara sobre si cada oración es verdadera o falsa, sino solo ejemplos de lenguaje correcto. Esto dificulta evitar las alucinaciones, pero OpenAI cree tener una solución que ya ha implementado en GPT-5.
La propuesta es añadir una etapa de entrenamiento adicional con una clasificación binaria llamada “¿Es válida?” (Is-It-Valid, IIV). Esta fase enseña al modelo a diferenciar entre respuestas correctas y erróneas.
Además, GPT-5 muestra un comportamiento más “humilde”: sus respuestas se clasifican en correctas, errores y abstenciones, estas últimas cuando el modelo prefiere no arriesgarse a dar una respuesta dudosa. Según los datos de OpenAI, GPT-5 se abstiene un 52% de las veces, mucho más que versiones anteriores, lo que reduce significativamente sus errores. Aunque otro modelo, o4-mini, tiene un leve mejor desempeño en aciertos, su tasa de errores es mucho mayor.
El estudio también critica que las pruebas de evaluación de estos modelos suelen premiar únicamente las respuestas correctas, sin considerar suficientemente las alucinaciones o la posibilidad de que el modelo simplemente diga “no lo sé”. Esto genera un incentivo para que la IA siempre intente responder, aunque no tenga la información correcta.
Una solución sencilla inspirada en los exámenes tipo test sería penalizar las respuestas equivocadas más que la incertidumbre. En estos exámenes, responder bien suma puntos, contestar mal resta, y no responder no influye en la nota, lo que desalienta adivinar sin saber. Algo similar podría aplicarse a los modelos de IA para reducir las alucinaciones.
En resumen, el problema de que las IAs “alucinen” tiene que ver con cómo están entrenadas para responder siempre y no admitir desconocimiento, pero ya hay avances que buscan hacerlas más cautas y confiables.



