本数据集包含21568道基于认知心理学理论构建的测评题目,采用层级认知分类体系,旨在全面评估大型语言模型的文化无关认知能力。文化无关能力指在不依赖特定语言、教育体系或社会经验的条件下,个体或模型所表现出的通用认知加工能力,如事实记忆、因果推理、 联想、 合理性评估等。
宏观信息加工机制 | 微观认知操作 | 模型 | 评测结果 |
---|---|---|---|
目标设定 | 任务识别 | GPT4 | 86% |
目标分解 | GPT4 | 34.33% | |
陈述性知识检索 | 事实记忆 | DeepSeek V2 | 80% |
经验回忆 | GPT4 | 60.9% | |
概念激活 | DeepSeek V2 | 83.9% | |
程序性规则执行 | 分类 | GPT4 | 85% |
规则执行 | GPT4 | 76% | |
逻辑演绎 | GPT4 | 67% | |
因果推理 | GPT4 | 88.12% | |
数学计算 | GPT 4o | 96.43% | |
联想与类比推理 | 联想 | DeepSeek R1 | 69% |
类比 | DeepSeek R1 | 54.58% | |
归纳推理 | DeepSeek R1 | 40.3% | |
元认知监控 | 自我检查 | DeepSeek R1 | 30.89% |
合理性评估 | DeepSeek R1 | 25.89% | |
纠错与修正 | DeepSeek R1 | 50% | |
工作记忆更新 | DeepSeek R1 | 21.74% |
宏观信息加工机制 | 微观认知操作 | 模型 | 评测结果 |
---|---|---|---|
目标设定 | 任务识别 | DeepSeek R1 | 65.36% |
目标分解 | DeepSeek R1 | 25.67% | |
陈述性知识检索 | 事实记忆 | DeepSeek R1 | 25% |
经验回忆 | DeepSeek R1 | 61.78% | |
概念激活 | DeepSeek R1 | 85.83% | |
程序性规则执行 | 分类 | DeepSeek R1 | 42.08% |
规则执行 | DeepSeek R1 | 0% | |
逻辑演绎 | DeepSeek R1 | 48.35% | |
因果推理 | DeepSeek R1 | 84.2% | |
数学计算 | DeepSeek R1 | 95% | |
联想与类比推理 | 联想 | DeepSeek R1 | 47% |
类比 | DeepSeek R1 | 56% | |
归纳推理 | DeepSeek R1 | 13.45% | |
元认知监控 | 自我检查 | DeepSeek R1 | 28.36% |
合理性评估 | DeepSeek R1 | 20.9% | |
纠错与修正 | DeepSeek R1 | 65.91% | |
工作记忆更新 | DeepSeek R1 | 23.08% |