1. 引言
OpenKG 现正式发布全面升级的 OneEval V1.2。新版本在评测的广度和深度上均实现了显著扩展: 1)模型更广:纳入了7个最新模型,评测范围已经涵盖41个LLM。 2)数据更深:新增了经济,税务、学术文献领域高质量数据集。OneEval V1.2 致力于更全面、及时地追踪大模型在知识增强领域的前沿能力,为行业发展提供更具时效性与参考价值的评测基准。OneEval V1.2整体评测框架如图1所示。
图1 OneEval评测框架示意图
OneEval 由 OpenKG SIGEval 工作组持续维护,评测数据与结果将定期更新,评测流程也将逐步引入多元防作弊机制,包括样本变体生成、模型输出标准化、多次采样验证、时效性验证以及对抗性问题构建等技术手段,并在可行范围内公开评测细节,努力保障评测的科学性、透明性与公平性。
2. OneEval评测数据集
OneEval主要基于OpenKG自建或整理的公开数据资源,并将周期性增加和更新。当前OneEval V1.2包含十多个面向多类型知识库的推理评测数据集,覆盖结构化与非结构化、显性与隐性等多种知识形态,具有更高的知识特异性与任务复杂度。相较于侧重通识能力的评测基准,OneEval 更聚焦于大模型在多源异构知识库中的深层理解与综合推理能力评估,以更贴近真实应用场景的方式推动知识增强型模型能力评测。
2.1 评测任务
OneEval 评测框架如图1所示,给定一个用户查询和一个可访问的知识库,其目标是通过利用中可用的信息来生成期望的答案,即。
在此,查询可以以多种格式呈现,包括自然语言问题、陈述、描述或代码片段。知识库源自一组预定义的独特类型,我们将在下一小节中对此进行详细说明。答案应当是基于所提供的和得出的一个有效推导或推断,并且其格式可以多样化,涵盖自由格式的文本、诸如三元组之类的结构化输出、布尔值或代码片段。
2.2 知识库类型
OneEval V1.2基准涉及以下5种类型的知识库:
文本知识库:涵盖非结构化文献与文档,测试模型在文本型知识的理解,以及复杂语境下的语义建构、信息抽取等能力。
表格知识库:以结构化表格数据为基础,考查模型在结构化知识的理解,以及对数值、分类与层级信息的处理、比较与逻辑计算能力。
知识图谱:基于实体-关系三元组构建的结构化语义网络,评估模型在图结构知识的理解,以及多跳推理、实体对齐与关系识别等任务中的表现。
代码知识库:包含函数文档、源代码与API说明,聚焦模型在程序型知识的理解,以及代码补全、自然语言到代码生成等能力。
逻辑知识库:逻辑库是对一个领域进行概念化的形式化、显式规范。它通常包括三项内容:概念集(即类),属性集(即概念间的关系),以及一组用于定义约束和逻辑关系的公理或规则。
2.3 领域类别
OneEval V1.2覆盖通用、法律,编程,学术四个关键知识领域,重点强调多源异构知识的广泛性与专业性。具体类别信息如图2所示。
通用(Open-domain):基于维基与综合性知识资源,涵盖来自各类百科知识库的开放领域知识,考察模型对跨主题背景知识的理解与迁移能力。
法律(Law):源自真实法律文书,包含判决书、裁定书等法律事实与规则,突出模型对法律条文逻辑与案例事实的结合推理能力。
编程(Code):来自GitHub的海量开源代码库,跨越300+依赖库和2000+ API 版本,强调模型对程序语言、函数接口及语义执行的深入理解与生成能力。
学术(Academic):收集来自AI领域的顶会顶刊论文,组织拥有论文发表经验的硕士和博士生根据论文提出具有迷惑性的选择题,同时也包含基于KG自动化生成问题,考验模型对细粒度的专业知识的理解、推理和判断能力。
2.4 OneEval-Hard
为更精准地评估LLM在高难度推理场景下的表现,我们基于多轮筛选和专家评审人工构建了一个困难样本子集——OneEval-Hard,专门聚焦于模型在多步推理、隐式知识关联和跨域知识整合等推理任务中的薄弱环节。
3. OneEval评测框架
OneEval 评测框架(见图1)旨在系统化评估LLM在借助外部知识库完成推理任务时的表现,重点考察模型对各类知识库的理解能力及其有效运用方式。整个评测过程保持 LLM 参数不变,通过结合用户输入与检索到的外部知识构建提示,引导模型进行推理并按照任务的目标形式生成答案。
3.1 外部知识检索范式
由于本评测框架重点在于评估LLM在对各种类型的知识理解和运用能力,而非检索知识的能力,因此,对于涉及外部知识的任务,采用统一的检索范式,获取与测试样本相关的上下文信息。具体而言,基于Dense Retrieval的思路,其核心在于按用户输入与知识片段(文本片段、代码片段、三元组子图等)的稠密向量(q,K)之间的相似度S进行排序,选取top-k知识片段作为知识上下文。S的计算公式如下:
S(q, K) = cos(q, K)
其中,q和K分别表示由SentenceBERT模型编码得到的用户输入向量和知识向量。通过上述方式检索获得的外部知识上下文中可能包含少量的噪声。这种设置更贴近真实应用场景,为评估模型在面对不完美或冗余知识时的鲁棒性提供了有效的测试环境。请注意,对于所有LLM,提供相同的外部知识。
3.2 评测对象
本次版本的评测选择了多个国内外领先的研究团队和企业,涵盖开源与闭源、不同参数规模及不同技术路线的代表性LLM。OneEval V1.2 新增了7个最新LLM,评测模型总数已达41个。详细的模型列表请参见表2,其中新增模型已用蓝色标出。
表2 评测对象统计信息
鉴于评测资源与时间成本的限制,目前仍有部分表现优异的大语言模型尚未纳入 OneEval 榜单。随着 OneEval 评测工作的持续推进,未来将逐步覆盖更多主流及前沿的大语言模型,从而实现更全面、系统的性能对比与能力分析。
3.3 评测指标
评测采用多维度指标体系,包括:
各任务评测指标:准确率(Accuracy,用于分类任务)、F1分数(平衡精确率与召回率,用于抽取和生成任务)、ISM@1(Identifier Sequence Match,用于代码生成任务)。具体指标分配详见表2。
综合评分:为了均衡考虑模型在不同任务上的综合表现,OneEval V1.2规定:一个模型的总体评分(Overall Score)为该模型在每个评测数据集得分的平均值。
3.4 总体评分
表3 OneEval-Hard 总体榜单
表3 OneEval-Hard 总体榜单为我们提供了 41 个大语言模型在 OneEval-Hard 综合基准测试中的整体表现概览。从榜单来看,排名前三的模型分别是 o3 (38.46%)、o4-mini (37.54%) 和 Doubao-Seed-1.6-Thinking (37.16%),它们在多维度评测指标(包括准确率、F1 分数和 ISM@1)的平均值上取得了领先。这表明,这些模型在精准调动和理解外部领域知识库,并据此生成严谨、可靠的多步推理方面,展现出了较强的综合能力。
值得注意的是,一些新发布的模型,如 GPT-5.1-Thinking、Gemini3-pro、DeepSeek-V3.2,虽然备受关注,但在总体榜单上的表现似乎并未达到预期中的顶尖水平。具体来看,Gemini3-pro 排名第 7 (31.76%),DeepSeek-V3.2-thinking 排名第 8 (31.69%),DeepSeek-V3.2-Speciale 排名第 10 (29.69%),Claude4.5-sonnet-thinking 排名第 12 (29.16%)。而 GPT-5.1-Thinking (24.09%)、Qwen3-Max (22.44%) 和 GLM4.6 (21.59%) 则分别位列第 20、22 和 24 名。
这种现象可能源于多方面原因。首先,OneEval-Hard 是一个综合性的高难度基准测试,涵盖了广泛的知识密集型推理任务,新模型可能在某些特定子任务上表现出色(例如在税务领域,DeepSeek-V3.2-Speciale 和 Gemini3-pro 表现突出;在经济领域,DeepSeek-V3.2-thinking 和 GPT-5 系列表现优异;在学术领域,Claude4.5-sonnet-thinking 领先,后文将详细介绍),但在其他方面可能存在短板,导致整体平均分不理想。其次,这些新模型的优化方向与 OneEval-Hard 的评测重心并非完全对齐:它们往往更强调通用对话体验、长上下文和特定专业场景,而 OneEval-Hard 强调的是跨领域、细粒度知识理解和复杂推理下的稳健性与格式可控性;此外,这些模型还可能受到“过度刷题”和思维链设计不当的影响——部分新模型在训练或对齐阶段对公开基准和类似题型进行了大量适配,可能导致在熟悉模式下表现尚可,但在 OneEval-Hard 这类尽量规避泄题、强调分布外泛化的基准上,收益有限。最后,一些“thinking”版本模型会生成极长、极细碎的推理过程,虽然在形式上显得“很会想”,但容易引入额外的推理噪声和逻辑分叉,增加出错概率,反而拖累最终表现。
3.5 各类知识库推理性能对比
图2 OneEval-Hard不同类型知识库推理性能对比
图3 OneEval-Hard文本推理表现排名
在文本推理任务中,Claude4.5-sonnet-thinking以约 30.61%的得分明显领先,其次是o3(26.72%)和GPT4.1(24.82%),形成第一梯队。Doubao-Seed-1.6-Thinking、Grok4和Gemini3-pro得分在 23%左右,表现稳健但略逊于前三名。o4-mini、ERNIE4.0、DeepSeek-Prover-V2和Qwen3-Max处于20%–21%区间,代表中等水平。
图4 OneEval-Hard知识图谱推理表现排名
在知识图谱推理任务中,GPT-5得分约 60.06%,显著领先于其他模型,体现出较强的结构化知识理解与关系推理能力。o4-mini(55.07%)与Doubao-Seed-1.6-Thinking(53.50%)组成第二梯队,性能接近且整体水平较高。GPT-5-nano、DeepSeek-V3.2-thinking和o3得分在 50% 左右,表现稳健,但略低于前三名。GPT-5-mini、Grok3、Qwen3-32B及DeepSeek系列部分模型处于约 47%–50% 区间,与领先模型相比仍存在一定差距。
图5 OneEval-Hard表格推理表现排名
该表格推理任务中,o3与Claude4.5-sonnet-thinking同为最高分,均为 53.00%,在理解表格结构和执行计算推理方面表现最强;GPT-5-mini以 51.00% 紧随其后,Gemini3-pro得分 48.33%,与GPT-5(46.00%)、o4-mini和GPT-5-nano等一起构成中上梯队,说明这些模型在读取与跨单元格推理上整体较为可靠。相比之下,Qwen3-Max、Doubao-Seed-1.6-Thinking、o1和DeepSeek-V3.2-thinking得分在 41%–43% 区间,相比领先模型在表格信息整合与推理准确率上略显不足。
图6 OneEval-Hard逻辑推理表现排名
在逻辑推理任务中,DeepSeek-V3以约 49.30% 的得分显著领先,说明其在处理规则冲突、例外情况等复杂逻辑结构时整体表现更好。o4-mini位居第二(39.76%),Grok4与Gemini3-pro同为 36.00%,构成第一梯队之外的中上水平。Claude3.7-sonnet-thinking、DeepSeek-R1与DeepSeek-V3.2-Speciale得分在 32%–34% 区间,表现较为稳定。
图7 OneEval-Hard代码推理表现排名
在代码推理任务中,Gemini2.5-pro以约 29.92% 的得分位居首位,o3紧随其后(29.58%),与Gemini3-pro(26.00%)共同构成性能最强的梯队,在理解细粒度API与推理代码行为方面整体更为准确。Grok4得分 24.00%,Qwen3-32B、DeepSeek-V3.2-thinking和DeepSeek-R1得分约在 21% 左右,表现处于中上水平。而GPT4.1、DeepSeek-V3、GPT-5-mini、GPT-5及Grok3得分约为 15%–17%,在此基准上的代码推理正确率相对较低,与领先模型相比仍存在一定差距。
3.6 不同领域推理性能对比
图8 OneEval-Hard不同领域表现性能对比
图9 OneEval-Hard通用领域模型排名
在通用域任务中,o3以约 44.07% 的得分位列第一,o4-mini(43.74%)和Grok4(43.01%)紧随其后,三者构成性能最强梯队;Doubao-Seed-1.6-Thinking与Llama4-Maverick得分接近 39%,GPT-5与GPT4.1约为 38%–38%,表现稳健;后续模型(如o1、Gemini3-pro、Qwen3-32B、DeepSeek-R1等)分布在 31%–36% 区间,而Gemini2.5-pro与Claude4.5-sonnet-thinking得分略低于 31%。主流模型差距并不悬殊,多数集中在中高分段。
图10 OneEval-Hard法律领域模型排名
在法律领域推理任务中,Doubao-Seed-1.6-Thinking 与 DeepSeek-V3.2-Speciale 以 48.33% 并列第一,Gemini3-pro 以 43.33% 紧随其后,这三者在法律条文理解与情景适用上整体表现最强。Claude4.5-sonnet-thinking 得分 35.00%,Qwen3-8B、Llama3.1-8B 与 DeepSeek-V3.2-thinking 约在 31%–32% 区间,处于中等偏上水平。总体上,Doubao-Seed-1.6-Thinking、DeepSeek-V3.2-Speciale 与 Gemini3-pro 在法律领域任务上明显领先;(2) 多数通用大模型在法律基准上的表现仍集中在中等水平,专业性和稳定性有进一步提升空间。
图11 OneEval-Hard学术领域模型排名
在学术推理任务中,Claude4.5-sonnet-thinking 以 33.75% 位居第一,Qwen3-Max(29.60%)和 ERNIE4.0(29.50%)紧随其后,在学术阅读理解与推理类题目上整体表现相对更强。ERNIE3.5、Claude4-sonnet-thinking 和 Claude3.7-sonnet-thinking 得分在 26%–28% 区间,处于中上梯队。目前,Claude4.5-sonnet-thinking 在学术任务上领先一个明显身位;大部分模型成绩集中在 24%–29% 区间,整体水平差距相对有限,需要进一步提升对高难度学术问题的处理能力。
图12 OneEval-Hard税务领域模型排名
在税务推理任务中,DeepSeek-V3.2-Speciale 以 30.00% 位居第一,Gemini3-pro(28.00%)和 DeepSeek-V3.2-thinking(26.00%)形成明显领先梯队,说明其在税法条文理解和计算场景中整体正确率更高。Claude4.5-sonnet-thinking 得分 22.00%,Qwen3-Max 为 18.00%,处于中等水平;GPT-5.1-Thinking 与 GLM4.6 得分均为 10.00%,而其余模型(包括 Gemini2.5-pro、DeepSeek-R1、GPT-5、DeepSeek-V3、o3、Qwen3-32B、o1 和 GPT-5-mini)多在 2%–8% 区间,税务领域表现相对薄弱。 总体上,税务基准上仅少数模型(尤其是 DeepSeek-V3.2 系列与 Gemini3-pro)展现出较强专业能力;大部分通用模型在税务任务中的得分偏低,反映该细分领域仍存在较大提升空间。
图9 OneEval-Hard经济领域模型排名
在经济领域推理任务中,DeepSeek-V3.2-thinking 以 87.80% 显著领先,GPT-5-mini(82.48%)和 GPT-5.1-Thinking(79.74%)组成第一梯队,Claude4-sonnet-thinking、GPT-5 与 GPT-5-nano等多模型得分在 75%–79% 区间,整体表现稳健。DeepSeek-V3.2-Speciale 与 o4-mini 约为 74%,Claude4.5-sonnet-thinking、Grok3 和 o3 处在 68%–71% 左右,而Doubao-Seed-1.6-Thinking及以下模型依次下降至 47.30%,在经济推理与题目解答准确率上相对较弱。DeepSeek-V3.2-thinking 和 GPT-5 系列在经济领域表现突出,正确率明显高于其他模型;中后段模型仍有较大提升空间,经济相关推理能力分化较为明显。
4. 动态榜单
在 OneEval V1.2 中,我们首次将“动态评测”能力引入榜单:随着底层知识库和文档内容的持续更新,评测样本能够自动生成与替换,模型分数也随之滚动刷新,从一次性的静态测评演化为面向时间维度的动态榜单。全部新样本由 LLM 自动构造并经过人工校验。下一步,我们计划对现有数据集进行逐步动态化升级,使 OneEval 不再只给出某一时刻的“快照式”排名,而是提供贴合真实知识环境持续变化的时间序列表现,更充分刻画各大模型在知识增强场景下的长期稳定性与演进趋势。在当前版本中,我们首先围绕学术论文与百科数据上的推理任务开展初步实验:其中,原始学术数据集基于计算机科学论文构建,新生成数据集则基于物理学论文;百科部分的新旧数据集则基于不同版本的维基语料生成。相关评测结果见表9 和表10。
图10 OneEval学术领域动态榜单(上图旧数据,下图新数据)
图10展示了OneEval学术领域在旧数据(计算机科学论文)和新数据(物理学论文)下的动态榜单。整体来看,新数据上的分数普遍略有下降,说明物理学相关任务对模型更具挑战。Claude4.5-sonnet-thinking在新旧数据中均保持第一,但得分从67.5%略降到65.7%,体现出较强的跨领域稳健性。GPT4o则从旧数据中的中游(第十二名、43.3%)跃升为新数据中的第二名(57.1%),显示其在新领域上的显著进步;相对地,Qwen3-Max从第二名(59.2%)跌至第四名(55.0%),部分模型甚至从前列跌出前十五。总体上,动态榜单揭示出头部模型(Claude4.5-sonnet-thinking)在跨领域上的动态知识更新场景中具备一定泛化能力,但大多数模型在领域迁移时仍存在明显波动,暴露出知识更新与跨领域推理能力的不足。
图11 OneEval百科领域动态榜单(上图旧数据,下图新数据)
图11展示的是OneEval百科领域在两批不同维基语料上的动态榜单,两批数据在来源时间和内容采样上存在差异,但并不构成严格意义上的“新旧知识”对比。可以看到,第二批维基数据上的得分整体呈上升趋势,更多反映的是模型在这一版数据分布下的适配性增强。两批数据中,GLM4.6与Gemini2.5-pro在第一批语料上并列第一(70%),而在第二批语料上,GLM4.6升至独占第一(80%),Gemini2.5-pro退居第二(76%);DeepSeek类模型和Doubao等在第二批语料上的排名和得分也有不同程度上升,体现出它们在当前语料分布下的鲁棒性和任务适应能力有所改善。同时,Llama与GPT系列模型在两批语料上的表现相对稳定,仅有小幅波动,显示出较好的稳健性。总体而言,百科领域的动态评测揭示出模型在不同版本语料分布下的整体表现变化和相对优势,而模型间的性能差距以及在复杂或细粒度问答场景中的稳定性仍有进一步评估和提升空间。
总体上,在动态评测场景下,不同模型的表现变化确实比较大,这种差异主要体现在:一是排名波动明显,部分模型在数据分布稍有变化时会从中游跃升至前列,或从前排跌出榜单,而头部模型通常仍能稳定保持在前几名;二是得分起伏较大,同样的“数据版本切换”,有的模型分数显著上升,有的则出现明显下降,说明它们对数据分布变动的敏感度不同;三是整体来看,领先模型在不同数据版本下表现更稳健,而中腰部模型更容易出现剧烈波动。因此,在动态评测中,模型随数据变化的“稳定性”和“跨分布适应能力”本身就构成了一个新的关键能力维度。
5. 案例分析
为了更深入地了解LLM在OneEval测试中的表现差异,我们对不同模型在各项任务中的优势与不足进行了详细分析。重点比较了各模型在推理任务中的表现,特别是在因果推断、事实推断等特定任务下的优缺点。我们尝试通过具体案例分析,探讨不同模型在推理过程中的错误类型,并推测其可能的原因。
5.1 文本推理
测试用例:
你是一名中经验丰富的中文法律专家,擅长法律事实核查验证,现在有一个情节和相关的法律声明,请根据专业知识判断其是否存在错误,并在最后输出结果“正确”或“错误”。
1.必要时,可以输出法条进行推理
2.提供详细的解释
3.一步步思考后给出结论
4.输出结果时请使用“结果”:“正确”或“错误”。
5.输出结果后,立即结束,不需要额外输出解释
情节:“大洲公司超标排污导致河流污染,公益环保组织甲向A市中级法院提起公益诉讼,请求判令大洲公司停止侵害并赔偿损失。法院受理后,在公告期间,公益环保组织乙也向A市中级法院提起公益诉讼,请求判令大洲公司停止侵害、赔偿损失和赔礼道歉。”
法律声明:"予以受理,与甲组织提起的公益诉讼合并审理"
相关知识:(1)《民诉解释》第285条:人民法院受理公益诉讼案件后,依法可以提起诉讼的其他机关和有关组织,可以在开庭前向人民法院申请参加诉讼。人民法院准许参加诉讼的,列为共同原告。(2)《民诉解释》第289条:公益诉讼案件的裁判发生法律效力后,其他依法具有原告资格的机关和有关组织就同一侵权行为另行提起公益诉讼的,人民法院裁定不予受理,但法律、司法解释另有规定的除外。"
标签:错误
解题思路:“(1)《民诉解释》第285条:人民法院受理公益诉讼案件后,依法可以提起诉讼的其他机关和有关组织,可以在开庭前向人民法院申请参加诉讼。人民法院准许参加诉讼的,列为共同原告。(2)《民诉解释》第289条:公益诉讼案件的裁判发生法律效力后,其他依法具有原告资格的机关和有关组织就同一侵权行为另行提起公益诉讼的,人民法院裁定不予受理,但法律、司法解释另有规定的除外。如果其他组织没有要求参诉,却在公益诉讼判决作出之后另行起诉,则属重复起诉,不应受理。因此乙组织不能与甲组织提起的公益诉讼合并审理。”
从上表中我们可以归纳出:
在专业法律文本的推理中,claude-sonnet-4-5-thinking-all 能够准确识别规范间的细微差别,展现出较强的法条适配和概念辨析能力;相比之下,gpt-5.1 和 qwen3-max 虽具备结构化推理能力,但在专业法规的前提校验与领域化规范匹配方面表现较弱,更易因引用不当的法条而产生系统性推理偏差。
5.2 知识图谱推理
测试用例:
你是一位经济领域的专家,你将接收两个输入:一组三元组,描述某个领域的事实。一段描述相同或相关领域的文本。你的任务是判断该文本中描述的事实是否与给定的三元组存在冲突。
三元组信息:
文登区, 2024, 城投平台债券兑付资金需求, 43.93亿 元
文登区, 2023年(截止7月14日), 净融资, 2.95亿元
文登区, 2023年, 政府债务余额, 202.98亿元
文登区, 2021, 城投债券净融资规模, 18.84亿元
文登区, , 城投存续债券余额, 170.43亿元
文登区, 2023年, 政府债务率增速, 21.38%
文登区, 2023年, 政府债务余额较上年上升, 10.21%
文登区, 2023年, 存续债城投平台, 4家
文登区, 2023, 城投平台债券兑付资金需求, 66.70亿元
文登区, 2025, 城投平台债券兑付资金需求, 32.73亿元
文登区, 2023年, 政府债务率, 104.72%
文登区, 2022, 城投债券净融资规模, -14.06亿元
文登区, 2022年末, 地区广义债务, 近360%
文登区, 2020, 城投债券净融资规模, 33.94亿元
文本:
文登区城投债券负担较重,2023年存续债券行权规模相对较大。同期末,政府债务余额为202.98亿元,较上年末上升10.21%,政府债务率104.72%,较上年末上升21.38百分点。目前文登区有存续债城投平台共4家,平台间无股权交叉,但存在一定职能范围重合;地区广义债务负担不断增长,2022年末近360%。文登区区域内城投存续债券余额170.43亿元。2020~2022年,文登区城投债券净融资规模分别为33.94亿元、18.84亿元和-14.06亿元;2023年以来(截至7月14日)净融资4.95亿元;本年度内及2024年、2025年,以行权计城投平台债券兑付资金需求分别为66.70亿元、43.93亿元、22.73亿元。需关注的是,文登区平台虽然政府补助规模尚良好,但平台现金储备均很少,地区平台整体内部流动性压力较大,市场认可度较差。
问题:请找出与文本不一致的三元组,这些三元组用逗号分隔,如果没有,请回答无。让我们一步一步思考!在输出的最后一行,输出所有与文本不一致的三元组,这些三元组用逗号分隔,如果没有,请回答无,不包含其他任何文字。
标签:
"[2023年(截止7月14日), 净融资, 2.95亿元]",
"[2025, 城投平台债券兑付资金需求, 32.73亿元]"
解题思路:
step1. 阅读文本,提取相关数据:
2023年政府债务余额为202.98亿元,较上年末上升10.21%;政府债务率104.72%,较上年末上升21.38个百分;共有4家存续债城投平台;地区广义债务2022年末近360%;城投存续债券余额170.43亿元;2020年城投债券净融资33.94亿;2021年城投债券净融资18.84亿元;2022年城投债券净融资-14.06亿元;2023年以来(截至7月14日)净融资4.95亿元;2023年城投平台债券兑付资金需求66.70亿元;2024年城投平台债券兑付资金需求43.93亿元;2025年城投平台债券兑付资金需求22.73亿元
step2. 对比三元组数据与文本数据:
三元组中2023年(截至7月14日)净融资为2.95亿元,与文本中的4.95亿元不符
三元组中2025年城投平台债券兑付资金需求为32.73亿元,与文本中的22.73亿元不符
其他三元组数据均与文本一致
step3. 确认不一致的三元组:
不一致的三元组是:
[2023年(截至7月14日), 净融资, 2.95亿元]
[2025年, 城投平台债券兑付资金需求, 32.73亿元]
从上表中我们可以归纳出:
在中文经济领域知识图谱推理任务中,gemini-3-pro 具备较强的领域指标理解与数值校验能力,能够稳定完成多源信息的准确比对;相比之下,qwen3-max 在专业术语区分上仍存在语义偏差,glm-4.6 则缺乏系统化推理过程,二者在专业经济场景中的适配性弱于 gemini-3-pro。
5.3 表格推理
Please use the context to answer the following question. List all the answers divided with a comma in the last line of your output. Your answer should include only the answers divided by a comma.
问题:what is the total number of medals won by germany? Let's think step by step!"
答案:14
解题思路:
step1. 根据提供的上下文信息,逐项统计德国选手获得的奖牌数量。
step2. 在每个项目中查找德国选手的名字,并记录他们获得的奖牌类型(金、银、铜)。
step3. 计算德国选手获得的总奖牌数。
step4. 根据上下文信息,德国选手获得的奖牌如下:n1. Downhill LW3,5/7,9 - Gold (Gerd Schoenfelder)n2. Downhill LW10 - Gold (Martin Braxenthaler)n3. Super-G LW10 - Gold (Martin Braxenthaler)n4. Giant slalom LW3,5/7,9 - Gold (Gerd Schoenfelder)n5. Giant slalom LW10 - Gold (Martin Braxenthaler)n6. Slalom LW10 - Gold (Martin Braxenthaler)n7. Downhill LW6/8 - Bronze (Markus Pfefferle)n8. Super-G LW6/8 - Bronze (Wolfgang Moosbrugger)n9. Giant slalom LW6/8 - Bronze (Frank Pfortmueller)n10. Giant slalom LW12 - Bronze (Ludwig Wolf)n11. Slalom LW12 - Bronze (Ludwig Wolf)n12. Downhill LW11 - Silver (Andreas Schiestl)n13. Super-G LW11 - Silver (Andreas Schiestl)n14. Giant slalom LW11 - Silver (Juergen Egle)n综上所述,德国选手共获得了14枚奖牌。
从上表中我们可以归纳出:
(1)多数模型在中低复杂度的结构化推理任务中能够稳定给出正确结果,但其性能高度依赖于数据清洗与格式控制能力;(2)在国家标签匹配与输出规范要求严格的场景下,不同模型间的鲁棒性差异显著。
在通用领域英文表格推理任务中,具备稳健数据校验与分步推理能力的模型(如 qwen3-max)在多维度信息匹配与因果链条构建方面更具优势,而依赖直接输出或缺乏严格格式控制的模型(如 Deepseek-V3.2-thinking 与 gpt-5.1)在面对复杂约束或高精度场景时表现相对受限。
5.4 代码推理
测试用例:
This task requires inserting the missing import statement so that a TensorFlow-based HuggingFace question-answering model can be loaded and executed. The code initializes a tokenizer, loads a TFXxxForQuestionAnswering model from pretrained weights, tokenizes an input sentence, performs a forward pass, and retrieves the start and end score outputs.
期望答案
Core-Token:
TFXxxForQuestionAnswering(以及 XxxTokenizer)
潜在逻辑:
正确从
transformers库中导入与后续代码匹配的 Tokenizer 与 TensorFlow 问答模型类;使用
from_pretrained加载预训练的 tokenizer 和TFXxxForQuestionAnswering模型;利用
tokenizer.encode得到input_ids,将其转换为tf.constant后送入模型,最终得到start_scores和end_scores。
从上表中我们可以归纳出:
(1)在代码填空类任务中,部分模型能够理解整体程序结构并生成逻辑方向正确的代码,但其表现高度依赖于对框架与 API 的精确调用能力,一旦涉及跨框架区分(如 PyTorch 与 TensorFlow),易出现偏差;(2)面对需要严格补全特定 API 的场景,不同模型之间在指令遵循性与版本敏感度方面存在显著差异,能够保持 API 一致性与格式约束的模型更具鲁棒性,而生成倾向强或默认依赖熟悉框架的模型更易偏离任务要求。
在代码补全任务中,gemini-3-pro 能够把握整体代码结构但在跨框架 API 选择上易出现偏差,而 gpt-5.1 和 glm-4.6 往往偏离任务本身、难以生成约束条件下的精确补全,体现出三者在指令遵循性与细粒度 API 推理能力上的明显差异。
6. 分析与讨论
在OneEval对不同类型推理任务的系统测试中,各模型在因果推断、结构化比对、知识图谱链接、代码语义补全等方面展现出显著的能力差异。我们结合具体实验结果,总结其在多类推理能力上的潜在优势与局限如下:
(1)在因果关系与法律文本类推理任务中,推理链稳定性差异明显。
Gemini3-pro 在处理税务等专业领域的法律条文理解和计算场景中表现出较强的能力,得分28.00%,位居领先梯队。这表明其在处理因果链较短、上下文线索明确的情境中能够保持判断连贯性。GPT-5.1-Thinking 在税务推理中得分10.00%,表现相对薄弱,可能在长推理链中更容易因插入低概率假设而偏离主线推断路径,导致结论不稳定。GLM4.6 在税务推理中同样得分10.00%,更易出现“模板化输出”,在规范识别与法律条文匹配中表现相对较弱。
(2)在知识图谱三元组推断与结构化知识链接方面,GPT-5表现更为突出。
GPT-5 在知识图谱推理任务中得分约60.06%,显著领先于其他模型,体现出较强的结构化知识理解与关系推理能力。这说明它在实体识别、关系匹配与多跳节点核对中展现出较高鲁棒性,能够维持较清晰的结构化推理链。相比之下,Qwen3-Max 在知识图谱推理中未进入前列,可能在持续构建深度逻辑链方面略逊于GPT-5。DeepSeek 模型在知识图谱推理中得分在47%-50%区间,可能更容易忽略上下文限定而产生“看似合理但结构缺失”的推断。
(3)在表格与三元组一致性比对任务中,模型对“概念敏感度”的差异尤为突出。
O3 与 Claude4.5-sonnet-thinking 在表格推理任务中均获得最高分53.00%,表明它们在理解表格结构和执行计算推理方面表现最强。Gemini3-pro 在表格推理中得分48.33%,表现中上,对数值一致性的校验可能较稳定,但在高语义要求的指标解释上可能存在偏差。Qwen3-Max 在表格推理中得分在41%-43%区间,能够完成跨栏目比对,但在经济指标语义解析中偶有误判。
(4)在代码推理与 API 精准调用能力方面,模型差异最为显著。
Gemini2.5-pro 以约29.92%的得分位居代码推理首位,Gemini3-pro 紧随其后得分26.00%,共同构成性能最强的梯队,在理解细粒度 API 与推理代码行为方面整体更为准确,具备较强的结构性代码生成能力。这表明它们在局部代码精补与精准API调用方面表现优秀。GPT-5 在此基准上的代码推理正确率相对较低(15%-17%),可能在补全任务中输出解释性文本而非直接补全目标语句,反映出其在“局部结构补全”上的指令遵循能力不足。DeepSeek-V3.2-thinking 和 DeepSeek-R1 在代码推理中得分约21%,处于中上水平,但与领先模型仍存在差距。
(5)在常识性推断与隐性背景识别方面,模型表现分层明显。
此部分文档未直接提供具体模型的常识性推断和隐性背景识别的排名和得分,但根据其在其他领域的表现可推断。例如,GPT-5.1-Thinking 和 Gemini3-pro 在复杂问题上的深度思考和分步推理能力可能使其在处理常识性问题时能够给出一定程度的解释。Qwen3-Max 在知识图谱推理中相对依赖显式文本线索,当文本未直接陈述时,其因果补全能力可能相对较弱。
Takeaways:
要做表格 + 长链思考:首选 O3 与 Claude4.5-sonnet-thinking。Gemini3-pro 可做补充,尤其在数值一致性校验上表现稳定。
要做 KG / 三元组 / 实体链路推理:首选 GPT‑5 作为主力模型,其在知识图谱任务中得分约 60.06%,实体识别、关系匹配和多跳链路推理最稳定;DeepSeek 可作为备选参考,但易出现上下文错配;Qwen3‑Max 不宜单独承担深度链路推理,更适合作为辅助模型。
要常识/开放问答 + 解释:GPT-5 在知识图谱推理中展现出较强的结构化知识理解与关系推理能力,其在常识性问题处理上可能具备一定优势。
要局部代码精补 & 精准 API 调用:更信赖 Gemini2.5-pro 和 Gemini3-pro。避免只用 GPT-5 和部分 DeepSeek/GLM 模型,因其在指令遵循和局部代码环境敏感性上可能不足。
要大体结构化产出(报告/模板):DeepSeek-V3.2 系列与 GLM4.6 在某些领域(如税务)展现出一定的专业能力,其“框架化能力”可能可以发挥优势,再由其它模型做细节校正。
7. 总结与展望
OneEval 是一个侧重于“大模型 + 知识库(LLM+KB)”融合能力的系统化评测体系。当前发布的 V1.2 版本覆盖了十个核心任务数据集,兼顾文本、表格、知识图谱、代码与逻辑等多种知识形态,面向通用、法律、经济、税务与学术等 7 大重点领域,力图从“知识广度 × 推理深度”的维度刻画大模型在知识增强场景下的真实能力表现。
展望后续迭代,OneEval 将以周期性更新的方式持续扩展,纳入更多由 OpenKG 自主研发的评测方法与数据集,进一步强化对快慢思考、神经符号集成推理、以及多步链式推理等能力的刻画,推动评测从“能否答对”走向“如何思考、是否可信”。我们希望借此支撑大模型向“知识更深、思维更强”的方向演进,为理解力与推理能力的系统性提升提供可复用的基准与方法参考。
OpenKG
OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。
点击阅读原文,进入 OpenKG 网站。