本数据集包含8400条用于评估大模型认知能力的指令,旨在评估大型语言模型认知推理的能力。
# | 数据集名称 | 任务类型 |
认知分布 认知 / 知识 |
---|---|---|---|
1 | GSM8K | 数学推理 | |
2 | OpenAI-MATH | 数学推理 | |
3 | MMLU | 广域知识 | |
4 | CMMLU | 广域知识 | |
5 | XieZhi | 常识推理 | |
6 | CommonSenseQA | 常识推理 | |
7 | AGIEval | 专业试题 | |
8 | Humanity Last Exam | 专业试题 |