Los usuarios de modelos de lenguaje a menudo hacen preguntas poco claras o con información insuficiente, lo que dificulta entender exactamente qué necesitan. Por ejemplo, una pregunta como “¿Qué libro debería leer ahora?” depende mucho del gusto personal. De igual forma, “¿Cómo funcionan los antibióticos?” debería responderse de manera diferente según el conocimiento previo del usuario. Sin embargo, las evaluaciones actuales suelen pasar por alto este contexto que falta, lo que genera juicios inconsistentes. Una respuesta que elogia el café puede parecer adecuada, pero podría ser poco útil o incluso perjudicial para alguien con una condición médica. Sin conocer la intención o necesidades del usuario, es complicado evaluar de forma justa la calidad de la respuesta del modelo.
Investigaciones previas se han centrado en crear preguntas de aclaración para resolver la ambigüedad o la información faltante en áreas como preguntas y respuestas, sistemas de diálogo y recuperación de información. Estas estrategias buscan entender mejor lo que el usuario realmente quiere. De manera similar, estudios sobre el seguimiento de instrucciones y la personalización resaltan la importancia de adaptar las respuestas según atributos del usuario, como experiencia, edad o preferencias de estilo. Algunos trabajos también han explorado cómo los modelos se adaptan a diversos contextos y proponen métodos de entrenamiento para mejorar esa capacidad. Además, evaluadores basados en modelos de lenguaje se usan cada vez más por su eficiencia, aunque pueden tener sesgos, lo que ha impulsado esfuerzos para hacer sus evaluaciones más justas mediante criterios más claros.
Un grupo de investigadores de la Universidad de Pennsylvania, el Allen Institute for AI y la Universidad de Maryland ha propuesto un enfoque llamado evaluaciones contextualizadas. Esta metodología añade contexto sintético —en forma de pares de preguntas y respuestas complementarias— para aclarar consultas que originalmente son vagas durante la evaluación de los modelos. Su estudio muestra que incluir contexto cambia significativamente los resultados, incluso puede alterar el orden en que se califican los modelos, a la vez que mejora la coincidencia entre evaluadores. También reduce la dependencia en aspectos superficiales, como el estilo, y revela sesgos presentes en las respuestas predeterminadas, especialmente hacia contextos WEIRD (Occidental, Educado, Industrializado, Rico y Democrático). Además, demuestran que los modelos reaccionan de manera distinta según el contexto del usuario.
Para llevar a cabo esta evaluación, los investigadores desarrollaron un marco simple: primero seleccionaron preguntas poco específicas de conjuntos de datos populares y las completaron con pares pregunta-respuesta que simulan el contexto particular de un usuario. Luego recolectaron respuestas de distintos modelos y pidieron tanto a evaluadores humanos como automáticos que compararan las respuestas en dos condiciones: una con la pregunta original y otra con el contexto añadido. Así pudieron medir cómo cambia la clasificación de modelos, la concordancia entre evaluadores y los criterios de valoración según la información proporcionada. Esta estrategia ofrece una forma práctica de probar cómo los modelos enfrentan la ambigüedad que ocurre en situaciones reales.
Agregar contexto, como la intención o el perfil del usuario, mejora notablemente la evaluación: incrementa la coincidencia entre evaluadores en un 3–10% y en algunos casos incluso cambia el modelo mejor calificado. Por ejemplo, GPT-4 superó a Gemini-1.5-Flash solo cuando se dispuso del contexto. Sin él, las evaluaciones se centran en el tono o fluidez, pero con contexto el foco pasa a la precisión y utilidad. Las respuestas por defecto suelen reflejar sesgos hacia audiencias occidentales, formales y generalistas, lo que las hace menos efectivas para usuarios diversos. Los actuales parámetros de evaluación que ignoran el contexto pueden generar resultados poco confiables. Para lograr evaluaciones más justas y aplicables al mundo real, es fundamental usar preguntas con contexto acompañadas de criterios de puntuación que respondan a las verdaderas necesidades del usuario.
En resumen, muchas preguntas que reciben los modelos de lenguaje son vagas y carecen de información clave, como la intención o el nivel del usuario, lo que hace que su evaluación sea subjetiva e poco fiable. La propuesta de evaluaciones contextualizadas, que enriquecen las preguntas con información complementaria relevante, permite que la valoración se base en criterios más significativos, como la utilidad, y puede incluso cambiar cuál modelo se considera mejor. Además, revela sesgos subyacentes, mostrando que los modelos tienden a responder asumiendo contextos WEIRD. Aunque el estudio usó un conjunto limitado de contextos y parte de la evaluación fue automatizada, ofrece un argumento sólido para avanzar hacia evaluaciones que tengan en cuenta el contexto en futuros desarrollos.



