返回首页

大模型复杂数值运算评测

评估大模型复杂数值的运算能力

Huggingface
数据集介绍

本数据集基于 GSM8K 数据集改编,训练数据集共包含约 4.5K 道数学题,测试数据集共包含784条。我们引入了大量超出常规范围的大整数,旨在测试大语言模型复杂数值运算的能力,评估其在处理高精度运算时的稳定性和泛化能力。数据集结构包括以下字段:

  • new_question:经过改写的问题陈述,包含大数值运算,形式接近自然语言。
  • new_std:与 new_question 对应的标准解答。
  • general_question:通用问题模板,采用参数化形式(如 {a}、{b}、{c}),便于用户生成多个实例。
  • general_std:适用于通用模板的标准计算表达式,用于表示解决该类问题的一般逻辑。
  • question:原始问题文本,通常为改写前的版本,保留原始结构和数值。
  • answer_only:question 的标准答案,仅包含数值结果,便于快速对比和评估。

该数据集支持评估模型在以下方面的能力:

  • 理解和解析包含大整数的自然语言问题;
  • 执行复杂数值的加减乘除运算;
  • 泛化到结构相似但数值范围显著扩展的问题
样例数据
模型排行榜
排名 模型名称 准确率
1 Qwen2.5-72B-Instruct 57.02%
2 Qwen2.5-7B-Instruct 36.61%