【SemEval-2025】TeleAI的基于LLM和编程的表格推理框架TableReasoner

2301_76896984

2650人浏览 · 2025-10-29 12:00:00

2301_76896984 · 2025-10-29 12:00:00 发布

TeleAI在SemEval-2025任务8中的表格推理框架（TableReasoner）解读总结

参考：TeleAI at SemEval-2025 Task 8: Advancing Table Reasoning Framework with Large Language Models、code

时间：2025.8 SemEval-2025 ACL

一、研究背景与任务目标

1. 任务背景

SemEval-2025 Task 8聚焦表格问答（TQA） 任务，核心是基于表格数据回答自然语言问题。与非结构化文本问答相比，TQA面临三大关键挑战：

表格规模大：真实世界表格常包含海量行/列，传统模型受上下文长度限制难以处理；
列语义不完整：部分列名存在缩写、歧义，导致模型无法准确理解列含义；
实体模糊性：查询中的实体与表格中的实体表述不一致（如“Mr Harari”对应表格中“Yuval Noah Harari”），易引发匹配错误。

2. 数据集介绍

实验基于DataBench数据集，该数据集包含80个真实世界表格，分为训练集（49个）、开发集（16个）、测试集（15个），测试集含522条人工标注问答对，问答类型涵盖5类：布尔型（boolean）、类别型（category）、数值型（number）、类别列表型（list[category]）、数值列表型（list[number]）。
为适配不同场景，数据集衍生出两个子任务：

子任务A：基于完整DataBench；
子任务B：基于DataBench Lite（每个表格仅保留前20行数据）。

二、核心方法：TableReasoner框架

TableReasoner是一种基于大型语言模型和编程的表格推理框架，通过“表格表示- schema链接-查询优化-编程求解-迭代思考”的全流程设计，解决TQA的核心挑战，框架结构如图所示：

在这里插入图片描述

1. 核心模块设计

（1）表格Schema生成：高效表示表格

设计思路：摒弃传统CSV/Markdown直接存储表格文本的方式，改用“结构+语义”结合的Schema表示表格，降低token复杂度（从表格全量数据的(O(M×N))降至Schema的(O(N))，其中(M)为行数、(N)为列数），支持大规模表格处理。
Schema组成：
- 基础元数据：列名、数据类型（如float64）、统计属性（数值列的最大/最小/均值，类别列的唯一值/高频值）；
- 示例数据：随机选取(K)行作为示例，辅助LLM理解数据分布；
- 语义补充：通过LLM生成表格及各列的描述文本，消除列名歧义（如将缩写“SOP”解释为“Statement of Purpose（个人陈述）评分，1-5分制”）。

（2）表格Schema链接：聚焦查询相关信息

通过“解析-链接-精炼”三步流程，将全局Schema压缩为聚焦Schema（仅保留与查询相关的列和实体信息），减少噪声输入并缓解幻觉：

解析（Parsing）：LLM将原始查询拆解为有序子查询；
链接（Linking）：
- 列链接：为每个子查询匹配表格中相关列；
- 实体链接：通过“LLM提取查询实体→Python读取对应列数据→最长公共子序列（LCS）算法匹配（重叠率>0.6）→LLM筛选最优匹配”，解决实体表述不一致问题；
精炼（Refinement）：剔除全局Schema中无关列，整合实体对齐信息，生成聚焦Schema。

（3）查询精炼（Query Refinement）

基于思维链（CoT）提示，利用聚焦Schema将复杂查询进一步分解为递进式子查询，并标注每个子查询对应的相关列。与Schema链接阶段的“查询解析”相比，该阶段使用的聚焦Schema信息密度更高、噪声更少，提升子查询的准确性。

（4）编程辅助求解（Program-assisted Solution Generation）

核心逻辑：引导LLM生成思维程序（PoT），基于聚焦Schema和精炼子查询编写Python代码，在隔离环境中执行代码获取可验证结果；
优势：相比纯文本推理，编程方式可有效避免多步数值计算中的幻觉（如求和、平均值计算错误）。

（5）答案总结（Answer Summary）

根据DataBench严格的答案格式要求，汇总迭代推理过程中的中间思路和代码执行结果，生成符合类型要求的最终答案（如布尔型输出“True/False”，列表型输出规范数组）。

2. 迭代思考范式（Iterative Thinking）

受ReAct范式启发，将推理流程融入“思维-行动-观察”（Thought-Action-Observation）循环，实现增量式反思与决策：

思维（Thought）：对应查询精炼阶段的子查询；
行动（Action）：对应编程求解阶段的代码生成；
观察（Observation）：对应代码执行结果；
循环逻辑：每个循环结束后，系统判断当前结果是否能回答原始查询，若能则进入答案总结阶段，否则生成新的后续查询重复循环，最大循环次数设为5。

3. 性能优化策略

监督微调（SFT）：针对“查询精炼”和“编程求解”模块，采用拒绝采样方法在DataBench训练/开发集上生成高质量训练数据（过滤错误推理路径，选择最优路径），使用LoRA（低秩适应）方法微调LLM（如Qwen2.5-32B、Mistral-Large），降低微调成本；
模型组合：利用不同LLM的优势，在“编程求解”阶段使用代码生成能力更强的Mistral-Large，其他阶段使用Qwen2.5-32B，形成混合架构；
多数投票（Majority Voting）：基于自一致性原则，对多次推理结果进行投票，进一步提升结果稳定性。

步骤	目的	输入	输出
表格Schema生成	以结构化方式描述表格，降低数据复杂度，便于大语言模型理解和处理大规模表格	表格数据（如CSV文件）	包含表格全局特征、列数据类型、统计属性、示例值及列语义描述的JSON格式全局表格Schema
表格Schema链接	从全局表格Schema中提取与查询相关信息，减少噪声和幻觉，为后续查询精炼和编程提供精准数据	全局表格Schema、查询语句	聚焦表格Schema（仅包含与查询相关的列和实体对齐信息）
查询精炼	将复杂查询分解为更具体、可执行的子查询，结合聚焦表格Schema明确相关列，提升查询理解和执行准确性	聚焦表格Schema、原始查询	精炼后的子查询及对应的相关列名
程序生成	利用聚焦表格Schema和精炼子查询，通过编程方式生成可执行代码，获取准确结果，避免数值幻觉	聚焦表格Schema、精炼后的子查询	可在隔离环境（如Python解释器）中执行的代码（思维程序PoT）
迭代思考	通过“思维-行动-观察”循环，实现增量式反思和决策，不断优化推理过程，直至得到满意答案	每次循环中的子查询（思维）、生成的代码（行动）、代码执行结果（观察）	若当前推理状态能回答查询，则进入答案总结；否则生成新的后续查询继续循环
答案总结	根据DataBench答案格式要求，汇总迭代推理过程中的中间结果，生成最终格式化答案	迭代思考过程中的中间思路和代码执行结果	符合任务要求格式（布尔型、类别型、数值型、列表型等）的最终答案

三、实验结果与分析

1. 主要结果：性能领先

实验对比了传统基线方法（零样本上下文学习Z-ICL、纯代码方法Code-based）与TableReasoner的性能，核心结果如下（表1为关键模型在测试集的准确率）：

模型/方法	DataBench平均准确率	DataBench Lite平均准确率	子任务排名
Code-based（GPT-4o）	85.44%	83.72%	-
TableReasoner（无SFT，Qwen2.5-32B）	89.85%	89.66%	-
TableReasoner（混合架构+SFT+投票）	93.87%	91.76%	子任务A/B双第一

2. 关键发现

（1）TableReasoner的优势显著

相比Z-ICL：在各模型配置下，TableReasoner准确率提升超40%（如Qwen2.5-7B从17.24%提升至81.61%），解决了Z-ICL的文本截断、幻觉问题；
相比Code-based：准确率提升3%-8%（如Qwen2.5-32B从77.39%提升至89.85%），验证了“Schema表示+迭代思考”的有效性；
缩小模型差距：小参数模型（如Qwen2.5-7B）在TableReasoner框架下，性能可超越未使用框架的大参数模型（如Llama3.3-70B）。

（2）组件必要性：消融实验验证

通过移除TableReasoner的关键组件，验证各模块的作用（基于Qwen2.5-32B，表2）：

方法	DataBench准确率	准确率下降幅度	DataBench Lite准确率	准确率下降幅度
TableReasoner（完整）	89.85%	-	89.66%	-
移除Schema生成	84.48%	5.37%	87.74%	1.92%
移除Schema链接	87.55%	2.30%	88.31%	1.35%
移除查询精炼	88.51%	1.34%	89.27%	0.39%

结论：Schema生成是最关键组件，尤其对大规模表格（DataBench准确率下降5.37%），说明“理解表格结构比保留全量行数据更重要”。

（3）表格规模适应性

Z-ICL：随表格规模增大（从小表到大全），准确率急剧下降（降幅超50%）；
Code-based：性能相对稳定，但大表场景仍有波动；
TableReasoner：在小、中、大表上准确率差异小于3%，展现出极强的规模鲁棒性（图4）。

（4）问答类型表现

传统方法：在布尔型问题上表现较好（准确率80%-90%），但在复杂的列表型问题（尤其是list[category]）上表现差（准确率50%-70%）；
TableReasoner：在所有类型上表现更均衡，list[category]问题准确率提升至80%以上，验证了其对复杂推理的支持能力。

四、局限性与未来方向

1. 局限性

提示设计影响基线性能：Z-ICL和Code-based方法的性能依赖表格格式（JSON/CSV/Markdown），不同LLM对格式偏好不同，实验未全面评估提示变体的影响；
推理效率较低：迭代思考需多次LLM调用和代码执行，耗时较长，难以适配实时场景。

2. 未来方向

探索自适应提示设计：针对不同LLM和表格类型，自动生成最优提示格式；
优化推理效率：设计自适应行动流，根据问题复杂度动态调整迭代次数，平衡准确率与耗时。

五、核心贡献总结

提出表格Schema表示法：结合结构与语义，解决大规模表格处理和列语义歧义问题；
设计**“解析-链接-精炼”Schema链接流程**：生成聚焦Schema，减少噪声并缓解幻觉；
引入迭代思考范式：实现增量推理与反思，提升复杂问题求解能力；
在SemEval-2025 Task 8中取得子任务A/B双第一，验证了框架的优越性与可扩展性。

智能机器人开发者大赛社区

「智能机器人开发者大赛」官方平台，致力于为开发者和参赛选手提供赛事技术指导、行业标准解读及团队实战案例解析;聚焦智能机器人开发全栈技术闭环，助力开发者攻克技术瓶颈，促进软硬件集成、场景应用及商业化落地的深度研讨。加入智能机器人开发者社区iRobot Developer，与全球极客并肩突破技术边界，定义机器人开发的未来范式！

更多推荐