返回首页

大模型复杂数值运算评测

评估大模型复杂数值的运算能力

数据集介绍

本数据集基于 GSM8K 数据集改编，训练数据集共包含约 4.5K 道数学题，测试数据集共包含784条。我们引入了大量超出常规范围的大整数，旨在测试大语言模型复杂数值运算的能力，评估其在处理高精度运算时的稳定性和泛化能力。数据集结构包括以下字段：

new_question：经过改写的问题陈述，包含大数值运算，形式接近自然语言。
new_std：与 new_question 对应的标准解答。
general_question：通用问题模板，采用参数化形式（如 {a}、{b}、{c}），便于用户生成多个实例。
general_std：适用于通用模板的标准计算表达式，用于表示解决该类问题的一般逻辑。
question：原始问题文本，通常为改写前的版本，保留原始结构和数值。
answer_only：question 的标准答案，仅包含数值结果，便于快速对比和评估。

该数据集支持评估模型在以下方面的能力：

理解和解析包含大整数的自然语言问题；
执行复杂数值的加减乘除运算；
泛化到结构相似但数值范围显著扩展的问题

样例数据

模型排行榜

排名	模型名称	准确率
1	Qwen2.5-72B-Instruct	57.02%
2	Qwen2.5-7B-Instruct	36.61%