TeleAI在SemEval-2025任务8中的表格推理框架(TableReasoner)解读总结

参考:TeleAI at SemEval-2025 Task 8: Advancing Table Reasoning Framework with Large Language Modelscode

时间:2025.8 SemEval-2025 ACL

一、研究背景与任务目标

1. 任务背景

SemEval-2025 Task 8聚焦表格问答(TQA) 任务,核心是基于表格数据回答自然语言问题。与非结构化文本问答相比,TQA面临三大关键挑战:

  • 表格规模大:真实世界表格常包含海量行/列,传统模型受上下文长度限制难以处理;
  • 列语义不完整:部分列名存在缩写、歧义,导致模型无法准确理解列含义;
  • 实体模糊性:查询中的实体与表格中的实体表述不一致(如“Mr Harari”对应表格中“Yuval Noah Harari”),易引发匹配错误。

2. 数据集介绍

实验基于DataBench数据集,该数据集包含80个真实世界表格,分为训练集(49个)、开发集(16个)、测试集(15个),测试集含522条人工标注问答对,问答类型涵盖5类:布尔型(boolean)、类别型(category)、数值型(number)、类别列表型(list[category])、数值列表型(list[number])。
为适配不同场景,数据集衍生出两个子任务:

  • 子任务A:基于完整DataBench;
  • 子任务B:基于DataBench Lite(每个表格仅保留前20行数据)。

二、核心方法:TableReasoner框架

TableReasoner是一种基于大型语言模型和编程的表格推理框架,通过“表格表示- schema链接-查询优化-编程求解-迭代思考”的全流程设计,解决TQA的核心挑战,框架结构如图所示:

在这里插入图片描述

1. 核心模块设计

(1)表格Schema生成:高效表示表格
  • 设计思路:摒弃传统CSV/Markdown直接存储表格文本的方式,改用“结构+语义”结合的Schema表示表格,降低token复杂度(从表格全量数据的(O(M×N))降至Schema的(O(N)),其中(M)为行数、(N)为列数),支持大规模表格处理。
  • Schema组成
    • 基础元数据:列名、数据类型(如float64)、统计属性(数值列的最大/最小/均值,类别列的唯一值/高频值);
    • 示例数据:随机选取(K)行作为示例,辅助LLM理解数据分布;
    • 语义补充:通过LLM生成表格及各列的描述文本,消除列名歧义(如将缩写“SOP”解释为“Statement of Purpose(个人陈述)评分,1-5分制”)。
(2)表格Schema链接:聚焦查询相关信息

通过“解析-链接-精炼”三步流程,将全局Schema压缩为聚焦Schema(仅保留与查询相关的列和实体信息),减少噪声输入并缓解幻觉:

  • 解析(Parsing):LLM将原始查询拆解为有序子查询;
  • 链接(Linking):
    • 列链接:为每个子查询匹配表格中相关列;
    • 实体链接:通过“LLM提取查询实体→Python读取对应列数据→最长公共子序列(LCS)算法匹配(重叠率>0.6)→LLM筛选最优匹配”,解决实体表述不一致问题;
  • 精炼(Refinement):剔除全局Schema中无关列,整合实体对齐信息,生成聚焦Schema。
(3)查询精炼(Query Refinement)

基于思维链(CoT)提示,利用聚焦Schema将复杂查询进一步分解为递进式子查询,并标注每个子查询对应的相关列。与Schema链接阶段的“查询解析”相比,该阶段使用的聚焦Schema信息密度更高、噪声更少,提升子查询的准确性。

(4)编程辅助求解(Program-assisted Solution Generation)
  • 核心逻辑:引导LLM生成思维程序(PoT),基于聚焦Schema和精炼子查询编写Python代码,在隔离环境中执行代码获取可验证结果;
  • 优势:相比纯文本推理,编程方式可有效避免多步数值计算中的幻觉(如求和、平均值计算错误)。
(5)答案总结(Answer Summary)

根据DataBench严格的答案格式要求,汇总迭代推理过程中的中间思路和代码执行结果,生成符合类型要求的最终答案(如布尔型输出“True/False”,列表型输出规范数组)。

2. 迭代思考范式(Iterative Thinking)

受ReAct范式启发,将推理流程融入“思维-行动-观察”(Thought-Action-Observation)循环,实现增量式反思与决策:

  • 思维(Thought):对应查询精炼阶段的子查询;
  • 行动(Action):对应编程求解阶段的代码生成;
  • 观察(Observation):对应代码执行结果;
  • 循环逻辑:每个循环结束后,系统判断当前结果是否能回答原始查询,若能则进入答案总结阶段,否则生成新的后续查询重复循环,最大循环次数设为5。

3. 性能优化策略

  • 监督微调(SFT):针对“查询精炼”和“编程求解”模块,采用拒绝采样方法在DataBench训练/开发集上生成高质量训练数据(过滤错误推理路径,选择最优路径),使用LoRA(低秩适应)方法微调LLM(如Qwen2.5-32B、Mistral-Large),降低微调成本;
  • 模型组合:利用不同LLM的优势,在“编程求解”阶段使用代码生成能力更强的Mistral-Large,其他阶段使用Qwen2.5-32B,形成混合架构;
  • 多数投票(Majority Voting):基于自一致性原则,对多次推理结果进行投票,进一步提升结果稳定性。
步骤 目的 输入 输出
表格Schema生成 以结构化方式描述表格,降低数据复杂度,便于大语言模型理解和处理大规模表格 表格数据(如CSV文件) 包含表格全局特征、列数据类型、统计属性、示例值及列语义描述的JSON格式全局表格Schema
表格Schema链接 从全局表格Schema中提取与查询相关信息,减少噪声和幻觉,为后续查询精炼和编程提供精准数据 全局表格Schema、查询语句 聚焦表格Schema(仅包含与查询相关的列和实体对齐信息)
查询精炼 将复杂查询分解为更具体、可执行的子查询,结合聚焦表格Schema明确相关列,提升查询理解和执行准确性 聚焦表格Schema、原始查询 精炼后的子查询及对应的相关列名
程序生成 利用聚焦表格Schema和精炼子查询,通过编程方式生成可执行代码,获取准确结果,避免数值幻觉 聚焦表格Schema、精炼后的子查询 可在隔离环境(如Python解释器)中执行的代码(思维程序PoT)
迭代思考 通过“思维-行动-观察”循环,实现增量式反思和决策,不断优化推理过程,直至得到满意答案 每次循环中的子查询(思维)、生成的代码(行动)、代码执行结果(观察) 若当前推理状态能回答查询,则进入答案总结;否则生成新的后续查询继续循环
答案总结 根据DataBench答案格式要求,汇总迭代推理过程中的中间结果,生成最终格式化答案 迭代思考过程中的中间思路和代码执行结果 符合任务要求格式(布尔型、类别型、数值型、列表型等)的最终答案

三、实验结果与分析

1. 主要结果:性能领先

实验对比了传统基线方法(零样本上下文学习Z-ICL、纯代码方法Code-based)与TableReasoner的性能,核心结果如下(表1为关键模型在测试集的准确率):

模型/方法 DataBench平均准确率 DataBench Lite平均准确率 子任务排名
Code-based(GPT-4o) 85.44% 83.72% -
TableReasoner(无SFT,Qwen2.5-32B) 89.85% 89.66% -
TableReasoner(混合架构+SFT+投票) 93.87% 91.76% 子任务A/B双第一

2. 关键发现

(1)TableReasoner的优势显著
  • 相比Z-ICL:在各模型配置下,TableReasoner准确率提升超40%(如Qwen2.5-7B从17.24%提升至81.61%),解决了Z-ICL的文本截断、幻觉问题;
  • 相比Code-based:准确率提升3%-8%(如Qwen2.5-32B从77.39%提升至89.85%),验证了“Schema表示+迭代思考”的有效性;
  • 缩小模型差距:小参数模型(如Qwen2.5-7B)在TableReasoner框架下,性能可超越未使用框架的大参数模型(如Llama3.3-70B)。
(2)组件必要性:消融实验验证

通过移除TableReasoner的关键组件,验证各模块的作用(基于Qwen2.5-32B,表2):

方法 DataBench准确率 准确率下降幅度 DataBench Lite准确率 准确率下降幅度
TableReasoner(完整) 89.85% - 89.66% -
移除Schema生成 84.48% 5.37% 87.74% 1.92%
移除Schema链接 87.55% 2.30% 88.31% 1.35%
移除查询精炼 88.51% 1.34% 89.27% 0.39%
  • 结论:Schema生成是最关键组件,尤其对大规模表格(DataBench准确率下降5.37%),说明“理解表格结构比保留全量行数据更重要”。
(3)表格规模适应性
  • Z-ICL:随表格规模增大(从小表到大全),准确率急剧下降(降幅超50%);
  • Code-based:性能相对稳定,但大表场景仍有波动;
  • TableReasoner:在小、中、大表上准确率差异小于3%,展现出极强的规模鲁棒性(图4)。
(4)问答类型表现
  • 传统方法:在布尔型问题上表现较好(准确率80%-90%),但在复杂的列表型问题(尤其是list[category])上表现差(准确率50%-70%);
  • TableReasoner:在所有类型上表现更均衡,list[category]问题准确率提升至80%以上,验证了其对复杂推理的支持能力。

四、局限性与未来方向

1. 局限性

  • 提示设计影响基线性能:Z-ICL和Code-based方法的性能依赖表格格式(JSON/CSV/Markdown),不同LLM对格式偏好不同,实验未全面评估提示变体的影响;
  • 推理效率较低:迭代思考需多次LLM调用和代码执行,耗时较长,难以适配实时场景。

2. 未来方向

  • 探索自适应提示设计:针对不同LLM和表格类型,自动生成最优提示格式;
  • 优化推理效率:设计自适应行动流,根据问题复杂度动态调整迭代次数,平衡准确率与耗时。

五、核心贡献总结

  1. 提出表格Schema表示法:结合结构与语义,解决大规模表格处理和列语义歧义问题;
  2. 设计**“解析-链接-精炼”Schema链接流程**:生成聚焦Schema,减少噪声并缓解幻觉;
  3. 引入迭代思考范式:实现增量推理与反思,提升复杂问题求解能力;
  4. 在SemEval-2025 Task 8中取得子任务A/B双第一,验证了框架的优越性与可扩展性。
Logo

「智能机器人开发者大赛」官方平台,致力于为开发者和参赛选手提供赛事技术指导、行业标准解读及团队实战案例解析;聚焦智能机器人开发全栈技术闭环,助力开发者攻克技术瓶颈,促进软硬件集成、场景应用及商业化落地的深度研讨。 加入智能机器人开发者社区iRobot Developer,与全球极客并肩突破技术边界,定义机器人开发的未来范式!

更多推荐