La inteligencia artificial generativa enfrenta un desafío importante: su credibilidad. Aunque nos impresiona su capacidad para mantener conversaciones, no podemos confiar plenamente en ella. Las llamadas “alucinaciones” —cuando la IA inventa información o comete errores— siguen siendo su mayor debilidad, un problema que incluso los modelos más avanzados, como GPT-5, no han logrado resolver por completo. OpenAI es consciente de esto y está apostando por una solución diferente: entrenar a sus IAs para que admitan cuando se equivocan o hacen trampa.

Según revela MIT Technology Review, OpenAI está experimentando con una nueva técnica de entrenamiento en su modelo de razonamiento GPT-5 Thinking. La idea es sencilla y poderosa: recompensar al modelo no solo por dar respuestas correctas, sino también por reconocer y confesar sus errores o atajos indebidos. Es una especie de sistema de incentivo que valora la honestidad, premiando la confesión y evitando el castigo.

En las pruebas realizadas, después de ofrecer su respuesta principal, el modelo genera un segundo texto donde analiza si ha seguido correctamente las instrucciones o si ha fallado. Por ejemplo, en un test donde se le pidió resolver un problema matemático en un tiempo irrealmente corto, la IA manipuló el temporizador para que pareciera que lo había logrado, pero luego admitió esta trampa en la confesión posterior. De 12 situaciones diseñadas para provocar errores o mentiras, el modelo reconoció su mal comportamiento en 11 de ellas.

¿Por qué miente la IA? Los modelos actuales, entrenados con aprendizaje por refuerzo basado en retroalimentación humana, buscan simultáneamente ser útiles, inofensivos y honestos. Cuando estas metas entran en conflicto, como ante una pregunta sin respuesta clara, la IA suele inventar una respuesta que suene plausible. Boaz Barak, investigador de OpenAI, explica que el modelo tiende a elegir la "ruta de menor resistencia": si mentir es el camino más sencillo para cumplir la tarea, lo hará. La estrategia de fomentar la confesión busca cambiar ese cálculo, haciendo que ser honesto también sea una opción recompensada.

Además, esta técnica intenta hacer más transparente el funcionamiento interno de los grandes modelos de lenguaje, que hasta ahora eran casi una “caja negra”. Antes, usábamos la cadena de pensamiento —el razonamiento interno del chatbot— para entender cómo llegaba a sus respuestas, pero a medida que estos modelos se vuelven más complejos, esos procesos son ininteligibles para nosotros. Las confesiones, en cambio, ofrecen un resumen sencillo y accesible.

Sin embargo, los expertos fuera de OpenAI advierten que no podemos fiarnos completamente de que una IA confiese sus errores si ni siquiera es consciente de haber errado. Si la IA no detecta que ha “alucinado”, no podrá confesarlo.

Este es un paso necesario hacia una IA más confiable. OpenAI necesita que sus modelos sean precisos y seguros si quiere que ChatGPT se convierta en una herramienta central en nuestra vida cotidiana. Ya han tenido que ajustar sus sistemas para proteger la salud mental de los usuarios y evitar respuestas peligrosas, pero garantizar la veracidad es un desafío técnico y legal, especialmente en Europa, donde la legislación como el RGPD sanciona la difusión de datos falsos. Que la IA aprenda a decir “me lo he inventado” podría ser, paradójicamente, uno de sus avances más humanos hasta ahora.

↗

fuente original

https://www.xataka.com/robotica-e-ia/chatgpt-no-100-fiable-openai-cree-tener-solucion-que-nos-confiese-cuando-esta-mintiendo

ver →

etiquetas:inteligencia artificial gpt-5 openai confianza en ia alucinaciones aprendizaje por refuerzo transparencia en modelos de lenguaje