本数据集基于 GSM8K 数据集改编,训练数据集共包含约 4.5K 道数学题,测试数据集共包含784条。我们引入了大量超出常规范围的大整数,旨在测试大语言模型复杂数值运算的能力,评估其在处理高精度运算时的稳定性和泛化能力。数据集结构包括以下字段:
- new_question:经过改写的问题陈述,包含大数值运算,形式接近自然语言。
- new_std:与 new_question 对应的标准解答。
- general_question:通用问题模板,采用参数化形式(如 {a}、{b}、{c}),便于用户生成多个实例。
- general_std:适用于通用模板的标准计算表达式,用于表示解决该类问题的一般逻辑。
- question:原始问题文本,通常为改写前的版本,保留原始结构和数值。
- answer_only:question 的标准答案,仅包含数值结果,便于快速对比和评估。
该数据集支持评估模型在以下方面的能力:
- 理解和解析包含大整数的自然语言问题;
- 执行复杂数值的加减乘除运算;
- 泛化到结构相似但数值范围显著扩展的问题