Los sistemas de traducción basados en grandes modelos de lenguaje (LLMs) han avanzado tanto que, en algunos casos, superan a los traductores humanos. Sin embargo, a medida que estos modelos mejoran en tareas complejas como la traducción a nivel de documentos o textos literarios, se vuelve más difícil tanto avanzar como evaluar con precisión ese progreso. Aunque todavía se usan métricas automáticas tradicionales como BLEU, estas no explican por qué se otorga una determinada puntuación. Con una calidad de traducción casi humana, los usuarios necesitan evaluaciones que vayan más allá de los números, ofreciendo explicaciones sobre aspectos clave como la precisión, el uso de la terminología adecuada y la adecuación al público objetivo. Esta transparencia permite identificar errores y tomar decisiones mejor fundamentadas.
Durante mucho tiempo, BLEU fue la referencia para medir la calidad en traducción automática, pero su relevancia ha disminuido, especialmente ahora que los sistemas modernos compiten o incluso superan a traductores humanos. Nuevas métricas como BLEURT, COMET o MetricX utilizan modelos de lenguaje potentes que han sido ajustados para evaluar con mayor precisión la calidad de las traducciones. Grandes modelos como GPT o PaLM2 ya pueden realizar evaluaciones sin entrenamiento previo (zero-shot) o de forma estructurada, incluso generando retroalimentación detallada siguiendo estándares como MQM. Además, técnicas como la comparación por pares han mejorado la correlación con juicios humanos. Estudios recientes indican que pedir a los modelos que expliquen sus decisiones mejora la calidad de la evaluación, aunque este enfoque basado en razonamiento aún está poco explorado en la evaluación de traducción.
En este contexto, un equipo de investigadores de Sakana.ai desarrolló TransEvalnia, un sistema de evaluación y clasificación de traducciones que utiliza razonamiento guiado por prompts para valorar la calidad de las traducciones. Este sistema ofrece retroalimentación detallada empleando dimensiones específicas de MQM, asigna puntuaciones en una escala Likert de 5 puntos e incluye una calificación global. TransEvalnia ha demostrado un rendimiento competitivo e incluso superior al modelo MT-Ranker, considerado uno de los mejores en varias combinaciones de idiomas —como inglés-japonés o chino-inglés— y diferentes tareas. Probado con modelos LLM como Claude 3.5 y Qwen-2.5, sus evaluaciones coincidieron estrechamente con las de evaluadores humanos. Además, abordaron el sesgo de posición en las evaluaciones y liberaron públicamente todos los datos, resultados de razonamiento y el código fuente.
La metodología del sistema se enfoca en valorar traducciones desde varios aspectos clave: precisión, terminología, adecuación al público y claridad. Para textos poéticos, como los haikus, en lugar de evaluar la gramática se considera el tono emocional. Las traducciones se descomponen en segmentos que se califican individualmente con una escala del 1 al 5, y luego se ordenan. Para minimizar el sesgo, el estudio compara tres métodos de evaluación: uno de un solo paso, otro de dos pasos y un método de intercalado, considerado más fiable. También prueban una técnica sin razonamiento, pero esta carece de transparencia y tiende a presentar más sesgos. Finalmente, expertos humanos revisaron una selección de traducciones para comparar sus juicios con los del sistema y así afinar su precisión en relación con los estándares profesionales.
Los investigadores compararon sistemas de clasificación de traducciones usando conjuntos de datos con puntuaciones humanas, enfrentando sus modelos TransEvalnia (Qwen y Sonnet) contra MT-Ranker, COMET-22/23, XCOMET-XXL y MetricX-XXL. En la prueba WMT-2024 español-inglés, MT-Ranker fue el mejor, probablemente gracias a una mayor cantidad de datos de entrenamiento. Sin embargo, en la mayoría de las otras pruebas, TransEvalnia igualó o superó a MT-Ranker; por ejemplo, el enfoque sin razonamiento de Qwen ganó en WMT-2023 inglés-alemán. Analizando el sesgo de posición con puntuaciones de inconsistencia, el método intercalado casi siempre mostró menos sesgo (por ejemplo, 1.04 en la prueba difícil inglés-japonés). Los evaluadores humanos le otorgaron a Sonnet las puntuaciones Likert globales más altas (entre 4.37 y 4.61), y sus valoraciones mostraron buena correlación con las opiniones humanas (Spearman alrededor de 0.51 a 0.54).
En resumen, TransEvalnia es un sistema basado en prompts para evaluar y clasificar traducciones usando modelos LLM como Claude 3.5 Sonnet y Qwen. Ofrece puntuaciones detalladas en dimensiones clave de calidad inspiradas en el marco MQM y ayuda a elegir la mejor traducción entre opciones. Su desempeño suele igualar o superar al de MT-Ranker en varios pares de idiomas de WMT, aunque MetricX-XXL lidera en esa prueba debido a un ajuste fino específico. Los evaluadores humanos consideraron confiables los resultados de Sonnet, y las puntuaciones mostraron una fuerte correlación con sus juicios. El equipo mejoró notablemente a Qwen mediante fine-tuning, exploró soluciones para el sesgo de posición —un reto habitual en sistemas de clasificación— y compartió todos sus datos y código para que la comunidad pueda usarlos y seguir avanzando.



