返回首页

指令认知评测

评估指令数据集在认知难度的分布

GitHub 仓库
数据集介绍

本数据集包含8400条用于评估大模型认知能力的指令,旨在评估大型语言模型认知推理的能力。

  • 题目类型:常识问题、数学推理、元认知问题等
  • 认知等级:记忆、理解、应用、分析、评价、创造
  • 评估指标:准确率、推理步骤完整性
样例数据
模型排行榜
# 数据集名称 任务类型 认知分布
认知 / 知识
1 GSM8K 数学推理
2 OpenAI-MATH 数学推理
3 MMLU 广域知识
4 CMMLU 广域知识
5 XieZhi 常识推理
6 CommonSenseQA 常识推理
7 AGIEval 专业试题
8 Humanity Last Exam 专业试题
排行榜插图