本数据集包含8400条用于评估大模型认知能力的指令,旨在评估大型语言模型认知推理的能力。
| # | 数据集名称 | 任务类型 |
认知分布 认知 / 知识 |
|---|---|---|---|
| 1 | GSM8K | 数学推理 | |
| 2 | OpenAI-MATH | 数学推理 | |
| 3 | MMLU | 广域知识 | |
| 4 | CMMLU | 广域知识 | |
| 5 | XieZhi | 常识推理 | |
| 6 | CommonSenseQA | 常识推理 | |
| 7 | AGIEval | 专业试题 | |
| 8 | Humanity Last Exam | 专业试题 |