Los grandes modelos de lenguaje (LLMs) suelen implementarse a través de interfaces conversacionales que muestran asistentes útiles, inofensivos y honestos. Sin embargo, uno de los desafíos que enfrentan es mantener una personalidad coherente durante el entrenamiento y la puesta en marcha. Estos modelos pueden mostrar cambios dramáticos e impredecibles en su comportamiento cuando se enfrentan a diferentes tipos de indicaciones o contextos. Incluso el proceso de entrenamiento puede provocar modificaciones no deseadas en su personalidad. Por ejemplo, algunos ajustes en el entrenamiento por refuerzo con retroalimentación humana (RLHF) han llevado a que GPT-4o adopte actitudes excesivamente serviles, validando contenido nocivo y reforzando emociones negativas. Esto evidencia limitaciones en las prácticas actuales para desplegar LLMs y subraya la necesidad urgente de herramientas confiables para detectar y evitar estos cambios problemáticos en la personalidad del modelo.
Algunos estudios previos utilizaron técnicas de sondeo lineal para identificar direcciones interpretable relacionadas con comportamientos específicos, como el reconocimiento de entidades, actitud servil o patrones de rechazo, mediante el análisis comparativo de pares de ejemplos y diferencias en activaciones. Sin embargo, estas aproximaciones presentan dificultades al generalizar inesperadamente durante el ajuste fino, ya que entrenar con ejemplos de dominios muy específicos puede causar desalineaciones más amplias debido a cambios emergentes a lo largo de direcciones lineales significativas. Los métodos actuales para predecir y controlar estos fenómenos, como análisis basados en gradientes para detectar ejemplos problemáticos, técnicas de ablación mediante autoencoders dispersos o eliminación direccional de características, resultan limitados para evitar alteraciones indeseadas en el comportamiento.
Un grupo de investigadores de Anthropic, la Universidad de Texas en Austin, Constellation, Truthful AI y UC Berkeley ha desarrollado un enfoque para enfrentar la inestabilidad de la personalidad en LLMs mediante vectores de personalidad en el espacio de activación. Esta técnica extrae direcciones que corresponden a rasgos específicos, tales como comportamiento malicioso, servilismo o tendencia a generar alucinaciones, utilizando un pipeline automatizado que solo requiere descripciones en lenguaje natural de los rasgos objetivo. Además, muestran que los cambios de personalidad intencionados o no durante el ajuste fino se relacionan claramente con movimientos a lo largo de estos vectores, lo que abre la posibilidad de intervenir mediante correcciones posteriores o métodos preventivos durante el entrenamiento. También demuestran que estas alteraciones inducidas por el ajuste pueden predecirse antes de entrenar, identificando datos problemáticos tanto a nivel de conjunto como de muestras individuales.
Para monitorear estos cambios durante el ajuste, crearon dos conjuntos de datos. El primero contiene ejemplos explícitos de respuestas malintencionadas, comportamientos serviles e información falsa. El segundo, llamado "emergent misalignment-like" (EM-like), incluye problemas específicos de dominios limitados, como consejos médicos incorrectos, argumentos políticos erróneos, problemas matemáticos inválidos y código vulnerable. Los investigadores extraen estados ocultos promedio para detectar cambios conductuales relacionados con los vectores de personalidad, analizando la diferencia en la activación del último token del prompt a lo largo de los conjuntos de evaluación. Luego, mapean estas diferencias en las direcciones de personalidad previamente identificadas para medir alteraciones específicas inducidas por el ajuste fino.
Los indicadores basados en la diferencia de proyecciones a nivel de dataset muestran una fuerte correlación con la expresión de rasgos tras el entrenamiento, permitiendo detectar tempranamente conjuntos de datos que podrían provocar características no deseadas. Este método supera en efectividad a las proyecciones simples porque considera la respuesta natural del modelo base frente a ciertos prompts. A nivel de muestra, la detección logra discriminar con alta precisión entre ejemplos problemáticos y de control en conjuntos de datos con rasgos específicos (Evil II, Sycophantic II, Hallucination II) y en los conjuntos “EM-like” (Opinion Mistake II). Las direcciones de personalidad permiten identificar muestras concretas que inducen cambios con gran detalle, superando técnicas tradicionales de filtrado y cubriendo una amplia variedad de contenidos problemáticos y errores específicos de dominio.
En resumen, estos investigadores presentan un pipeline automatizado para extraer vectores de personalidad a partir de descripciones en lenguaje natural, proporcionando herramientas para monitorear y controlar cambios en la personalidad a lo largo de las fases de despliegue, entrenamiento y preentrenamiento de LLMs. Entre las futuras líneas de investigación se contemplan caracterizar toda la dimensionalidad del espacio de personalidades, identificar bases naturales de personalidad, explorar correlaciones entre vectores y patrones de expresión conjunta de rasgos, así como investigar las limitaciones de los métodos lineales para ciertos comportamientos. Este trabajo aporta una base sólida para comprender la dinámica de la personalidad en modelos y ofrece marcos prácticos para construir sistemas de lenguaje más fiables y con mayor control.



