Responder preguntas que combinan lenguaje natural con información estructurada en tablas se ha vuelto fundamental para desarrollar sistemas de inteligencia artificial más inteligentes y útiles. Estos sistemas suelen enfrentarse a documentos que mezclan texto con datos numéricos en tablas, algo común en informes empresariales, artículos científicos y reportes públicos. Comprender este tipo de documentos implica que la IA realice un razonamiento que abarque tanto las explicaciones textuales como los detalles en tablas, un proceso mucho más complejo que responder solo con base en texto.

Un problema recurrente es que los modelos de lenguaje actuales no interpretan bien los documentos cuando incluyen tablas. Al convertir estas tablas en texto plano, se pierde la relación original entre filas y columnas, lo que distorsiona la estructura de los datos y disminuye la precisión en las respuestas, especialmente cuando se deben hacer cálculos, agregaciones o razonamientos que involucran distintos hechos del documento. Esta limitación dificulta usar sistemas convencionales para resolver preguntas complejas que requieren analizar tanto texto como tablas a la vez.

Para superar estas dificultades, algunos métodos han aplicado técnicas de Recuperación Aumentada por Generación (RAG), que consisten en extraer fragmentos de texto relevantes y usarlos para generar respuestas con un modelo de lenguaje. Sin embargo, estas técnicas no son suficientes para tareas que requieren razonamientos complejos sobre grandes conjuntos de datos tabulares. Herramientas como NaiveRAG y TableGPT2 intentan abordar esto convirtiendo las tablas a formatos como Markdown o generando código en Python para procesarlas, pero aún les cuesta mantener la estructura original de las tablas para interpretar correctamente la información.

Ante esto, un grupo de investigadores de Huawei Cloud BU propuso TableRAG, un método que enfrenta estas limitaciones de manera directa. TableRAG es un sistema híbrido que alterna entre la recuperación de datos textuales y la ejecución estructurada basada en SQL, conservando el diseño de las tablas y tratando las consultas tabulares como una unidad coherente de razonamiento. Así, no solo mantiene la estructura tabular intacta, sino que realiza las consultas respetando la organización de filas y columnas, lo que permite una ejecución simbólica precisa para cálculos numéricos y operaciones lógicas. Además, crearon un conjunto de datos llamado HeteQA para evaluar el desempeño del método en diferentes ámbitos y preguntas que requieren varios pasos de razonamiento.

El funcionamiento de TableRAG consta de dos fases principales. En la etapa offline, los documentos heterogéneos se procesan para extraer tablas y texto por separado, almacenándose en bases de datos paralelas: una base relacional para las tablas y una base de conocimiento segmentada para el texto. En la fase online, cuando llega una pregunta, el sistema la descompone y realiza un proceso iterativo de cuatro pasos: identificar las subconsultas, recuperar información textual, programar y ejecutar consultas SQL, y generar respuestas intermedias. Según la pregunta, el sistema decide si se requiere razonamiento sobre texto, sobre tablas o ambos, y combina los resultados para ofrecer una respuesta precisa.

En las pruebas, TableRAG fue evaluado en varios conjuntos de datos, entre ellos HybridQA, WikiTableQuestions y el reciente HeteQA, que contiene 304 preguntas complejas distribuidas en nueve dominios, 136 tablas únicas y más de 5,300 entidades extraídas de Wikipedia. Estas pruebas incluyen tareas desafiantes como filtrado, agregación, agrupamiento, cálculo y ordenamiento. TableRAG superó a todos los métodos base, incluidos NaiveRAG, React y TableGPT2, logrando una mayor precisión gracias a un razonamiento a nivel de documento realizado en hasta cinco pasos iterativos y utilizando modelos avanzados como Claude-3.5-Sonnet y Qwen-2.5-72B para validar respuestas.

Este trabajo ofrece una solución sólida y bien estructurada para el reto de razonar sobre documentos que combinan formatos diversos. Al preservar la integridad estructural y emplear SQL para manipular datos organizados, los investigadores muestran una alternativa efectiva a los sistemas tradicionales basados solo en recuperación. TableRAG representa un avance importante en la capacidad de los sistemas de pregunta-respuesta para manejar documentos con texto y tablas, proponiendo un método más exacto, escalable y fácil de interpretar para entender esta clase de contenido.

↗

fuente original

https://www.marktechpost.com/2025/07/15/this-ai-paper-introduces-tablerag-a-hybrid-sql-and-text-retrieval-framework-for-multi-hop-question-answering-over-heterogeneous-documents/

ver →

etiquetas:procesamiento de lenguaje natural interpretación de tablas sistemas de inteligencia artificial recuperación de información razonamiento con bases de datos evaluación de modelos organización de datos