Los agentes de investigación profunda (Deep Research, DR) han ganado gran popularidad tanto en la academia como en la industria, gracias a los avances recientes en los grandes modelos de lenguaje (LLMs). Sin embargo, la mayoría de estos agentes públicos no están diseñados pensando en cómo piensan y escriben los humanos. Carecen de pasos estructurados que apoyen a los investigadores, como la elaboración de borradores, la búsqueda y el uso de retroalimentación. Actualmente, los agentes DR suelen combinar algoritmos y herramientas de forma poco integrada, lo que resalta la necesidad urgente de desarrollar marcos específicos que igualen o superen las capacidades humanas en investigación. La ausencia de procesos cognitivos inspirados en el pensamiento humano crea una brecha entre cómo investigan las personas y cómo los agentes de IA manejan tareas complejas.
Algunos enfoques actuales, como el escalado en tiempo de prueba, emplean algoritmos iterativos de refinamiento, mecanismos de debate, torneos para clasificar hipótesis y sistemas de autocrítica para generar propuestas de investigación. También existen sistemas multi-agente que trabajan con planificadores, coordinadores, investigadores y reporteros para entregar respuestas detalladas. Algunas plataformas permiten la interacción con humanos para recibir retroalimentación. Además, el ajuste fino de agentes se basa en objetivos de aprendizaje multitarea, afinación supervisada por componentes y aprendizaje por refuerzo para mejorar la búsqueda y navegación. Por su parte, los modelos de difusión LLM intentan superar las limitaciones del muestreo autoregresivo generando borradores ruidosos completos que luego van refinando iterativamente para obtener resultados de alta calidad.
En este contexto, investigadores de Google presentaron Test-Time Diffusion Deep Researcher (TTD-DR), un enfoque inspirado en la naturaleza iterativa de la investigación humana, que pasa por ciclos repetidos de búsqueda, reflexión y refinamiento. Este método plantea la generación de informes de investigación como un proceso de difusión, comenzando con un borrador que funciona como un esquema actualizado y una base que orienta la dirección del trabajo. Este borrador se mejora paso a paso mediante un proceso de “desruido” guiado por un mecanismo de recuperación que incorpora información externa en cada iteración. Este diseño centrado en el borrador facilita que la redacción sea más coherente y oportuna, además de reducir la pérdida de información durante la búsqueda iterativa. TTD-DR ha logrado resultados de vanguardia en pruebas que exigen búsquedas intensas y razonamiento complejo en múltiples pasos.
El marco TTD-DR supera limitaciones de agentes DR previos que empleaban procesos lineales o paralelos sin integración profunda. La arquitectura principal incluye tres etapas: generación del plan de investigación, búsqueda y síntesis iterativas, y generación final del informe. Cada etapa incorpora agentes LLM especializados, flujos de trabajo y estados internos. El sistema utiliza algoritmos de autoevolución para mejorar el rendimiento de cada fase, lo que ayuda a conservar el contexto de alta calidad. Este algoritmo, inspirado en trabajos recientes sobre autoevolución, se implementa mediante flujos de trabajo paralelos, secuenciales y cíclicos, y puede aplicarse a todas las etapas para elevar la calidad final del resultado.
Comparado directamente con OpenAI Deep Research, TTD-DR obtuvo tasas de victoria del 69.1 % y 74.5 % en tareas de generación de informes de investigación extensos, además de superar en un 4.8 %, 7.7 % y 1.7 % los resultados en tres conjuntos de datos con respuestas breves verificadas. Destaca especialmente en las evaluaciones automáticas de utilidad y exhaustividad, sobre todo en conjuntos de datos de investigación en formato largo. Por otro lado, el algoritmo de autoevolución alcanzó tasas de victoria del 60.9 % y 59.8 % frente a OpenAI Deep Research en tareas de investigación extensa y consultas profundas. Los puntajes de corrección mejoraron entre 1.5 % y 2.8 % en ciertas bases de datos, aunque en el conjunto GAIA el rendimiento fue un 4.4 % inferior. La integración de la difusión con recuperación de información supuso mejoras notables en todas las pruebas frente a OpenAI Deep Research.
En resumen, Google presenta TTD-DR, un método que supera limitaciones fundamentales al incorporar un diseño cognitivo inspirado en el pensamiento humano. Su enfoque convierte la elaboración de informes en un proceso de difusión basado en un borrador dinámico que marca la dirección de la investigación. El uso de algoritmos de autoevolución en cada componente del flujo de trabajo asegura la generación de contexto de alta calidad durante todo el proceso. Las evaluaciones demuestran que TTD-DR alcanza resultados punteros en tareas que requieren búsquedas intensas y razonamiento en múltiples etapas, destacando en informes extensos y en problemas que demandan razonamiento conciso y complejo.



