La epigrafía, dedicada al estudio de textos grabados en materiales duraderos como piedra y metal, es fundamental para entender el mundo romano. Sin embargo, esta disciplina enfrenta varios retos: las inscripciones a menudo están dañadas o incompletas, su datación es incierta, provienen de regiones muy diversas, incluyen muchas abreviaturas y el corpus total supera las 176,000 inscripciones latinas, con alrededor de 1,500 nuevos registros cada año.
Para superar estas dificultades, Google DeepMind ha desarrollado Aeneas, una red neuronal generativa basada en transformadores que permite restaurar los fragmentos de texto dañados, estimar su antigüedad, asignar su origen geográfico y contextualizar cada inscripción recuperando paralelos epigráficos relevantes.
Las inscripciones latinas abarcan más de dos mil años, desde aproximadamente el siglo VII a.C. hasta el siglo VIII d.C., y se encuentran dispersas en más de sesenta provincias del extenso Imperio Romano. Van desde decretos imperiales y documentos legales hasta lápidas y altares votivos. Tradicionalmente, los epigrafistas reconstruyen los textos a partir de conocimientos detallados del idioma, fórmulas y contexto cultural, y atribuyen fechas y lugares comparando evidencias lingüísticas y materiales. Pero muchas veces las inscripciones están físicamente dañadas, con partes faltantes cuya extensión es desconocida, y las variaciones a lo largo del tiempo y la amplia distribución geográfica complican aún más su análisis.
Aeneas se ha entrenado con el Latin Epigraphic Dataset (LED), un corpus unificado que reúne 176,861 inscripciones latinas de tres grandes bases de datos, abarcando cerca de 16 millones de caracteres y cubriendo inscripciones desde siete siglos antes de Cristo hasta ocho siglos después. Un 5% de estas inscripciones cuenta con imágenes en escala de grises. El dataset incluye transcripciones a nivel de caracter que usan símbolos especiales para marcar textos faltantes, además de metadatos con la procedencia por provincia y datación por década.
El modelo Aeneas está basado en un transformador profundo y estrecho derivado de la arquitectura T5, mejorado con posiciones rotativas para procesar eficazmente caracteres dentro de su contexto local y global. El texto se analiza junto con las imágenes de las inscripciones (cuando hay disponibles) que son procesadas por una red convolucional ligera para ayudar en la atribución geográfica. Aeneas cuenta con varias "cabezas" especializadas para: restaurar texto faltante (incluyendo espacios de longitud desconocida), clasificar la provincia de origen entre 62 opciones combinando texto e imagen, y estimar la fecha por década mediante una distribución probabilística. Además, genera una representación integrada enriquecida históricamente que permite recuperar inscripciones similares por similitud semántica, considerando no solo coincidencias textuales sino también paralelos lingüísticos y culturales.
El entrenamiento se realiza en hardware TPU v5e con grandes lotes de datos, combinando pérdidas de las distintas tareas y aplicando técnicas de aumento de datos, desde enmascaramiento aleatorio de caracteres hasta ajustes en imágenes, para mejorar la capacidad de generalización. Para la restauración del texto, utiliza una búsqueda por haz que permite generar y rankear múltiples hipótesis en casos de huecos de longitud desconocida.
En las pruebas realizadas, incluyendo una colaboración con 23 epigrafistas, Aeneas mostró mejoras significativas: redujo la tasa de error en restauración de caracteres a cerca del 21% cuando apoyó a expertos, frente al 39% de estos sin ayuda; en la atribución geográfica alcanzó un 72% de precisión, y con ayuda mejoró la precisión de los historiadores al 68%; en la estimación cronológica el error promedio del modelo es de 13 años, mientras que con ayuda se redujo el error humano de 31 a 14 años. Además, los paralelos contextuales que sugiere resultan útiles en aproximadamente el 90% de los casos y aumentan la confianza de los expertos en un 44% de media.
Entre los casos de estudio, destaca el análisis de las Res Gestae Divi Augusti, donde Aeneas identificó distribuciones bimodales en la datación que reflejan debates académicos sobre las diferentes etapas de composición. También en un altar votivo de Mainz del año 211 d.C., el sistema realizó una atribución geográfica correcta y recuperó paralelos relevantes que compartían fórmulas textuales e iconografía, mostrando conexiones históricas significativas más allá de coincidencias literales o proximidad espacial.
Aeneas está pensado como una herramienta colaborativa para historiadores, no como un reemplazo. Facilita la búsqueda de paralelos epigráficos, la restauración de texto y la atribución cronológica y geográfica, liberando tiempo para que los expertos se concentren en el análisis y la interpretación. Tanto el modelo como el conjunto de datos están disponibles abiertamente a través de la plataforma Predicting the Past. También se ha desarrollado un programa educativo para estudiantes de secundaria y docentes, fomentando un enfoque interdisciplinar que une inteligencia artificial y estudios clásicos.
En resumen, Aeneas es una avanzada red neuronal multimodal creada para la epigrafía latina, que ayuda a restaurar textos antiguos dañados, estimar sus fechas con un margen cercano a los 13 años, identificar la provincia de origen con una precisión superior al 70%, y sugerir paralelos históricos de gran utilidad para el análisis contextual. Estas capacidades mejoran el trabajo de los historiadores, agilizan la investigación y abren nuevas posibilidades en el estudio del pasado romano.



