大模型认知加工能力测评

评估大模型认知加工的原子能力体系

本数据集包含21568道基于认知心理学理论构建的测评题目，采用层级认知分类体系，旨在全面评估大型语言模型的文化无关认知能力。文化无关能力指在不依赖特定语言、教育体系或社会经验的条件下，个体或模型所表现出的通用认知加工能力，如事实记忆、因果推理、联想、合理性评估等。

宏观信息加工机制	微观认知操作	模型	评测结果
目标设定	任务识别	GPT4	86%
目标设定	目标分解	GPT4	34.33%
陈述性知识检索	事实记忆	DeepSeek V2	80%
	经验回忆	GPT4	60.9%
	概念激活	DeepSeek V2	83.9%
程序性规则执行	分类	GPT4	85%
	规则执行	GPT4	76%
	逻辑演绎	GPT4	67%
	因果推理	GPT4	88.12%
	数学计算	GPT 4o	96.43%
联想与类比推理	联想	DeepSeek R1	69%
	类比	DeepSeek R1	54.58%
	归纳推理	DeepSeek R1	40.3%
元认知监控	自我检查	DeepSeek R1	30.89%
	合理性评估	DeepSeek R1	25.89%
	纠错与修正	DeepSeek R1	50%
	工作记忆更新	DeepSeek R1	21.74%

宏观信息加工机制	微观认知操作	模型	评测结果
目标设定	任务识别	DeepSeek R1	65.36%
目标设定	目标分解	DeepSeek R1	25.67%
陈述性知识检索	事实记忆	DeepSeek R1	25%
	经验回忆	DeepSeek R1	61.78%
	概念激活	DeepSeek R1	85.83%
程序性规则执行	分类	DeepSeek R1	42.08%
	规则执行	DeepSeek R1	0%
	逻辑演绎	DeepSeek R1	48.35%
	因果推理	DeepSeek R1	84.2%
	数学计算	DeepSeek R1	95%
联想与类比推理	联想	DeepSeek R1	47%
	类比	DeepSeek R1	56%
	归纳推理	DeepSeek R1	13.45%
元认知监控	自我检查	DeepSeek R1	28.36%
	合理性评估	DeepSeek R1	20.9%
	纠错与修正	DeepSeek R1	65.91%
	工作记忆更新	DeepSeek R1	23.08%