指令认知评测

评估指令数据集在认知难度的分布

本数据集包含8400条用于评估大模型认知能力的指令，旨在评估大型语言模型认知推理的能力。

#	数据集名称	任务类型
1	GSM8K	数学推理
2	OpenAI-MATH	数学推理
3	MMLU	广域知识
4	CMMLU	广域知识
5	XieZhi	常识推理
6	CommonSenseQA	常识推理
7	AGIEval	专业试题
8	Humanity Last Exam	专业试题