返回首页

大模型认知加工能力测评

评估大模型认知加工的原子能力体系

敬请期待
数据集介绍

本数据集包含21568道基于认知心理学理论构建的测评题目,采用层级认知分类体系,旨在全面评估大型语言模型的文化无关认知能力。文化无关能力指在不依赖特定语言、教育体系或社会经验的条件下,个体或模型所表现出的通用认知加工能力,如事实记忆、因果推理、 联想、 合理性评估等。

  • 题目类型:结构化问答题、推理解释题、多步任务执行题
  • 难度等级:简单、中等、困难
  • 评估指标:准确率、推理步骤完整性
样例数据
英语结果
宏观信息加工机制 微观认知操作 模型 评测结果
目标设定任务识别GPT486%
目标分解GPT434.33%
陈述性知识检索事实记忆DeepSeek V280%
经验回忆GPT460.9%
概念激活DeepSeek V283.9%
程序性规则执行分类GPT485%
规则执行GPT476%
逻辑演绎GPT467%
因果推理GPT488.12%
数学计算GPT 4o96.43%
联想与类比推理联想DeepSeek R169%
类比DeepSeek R154.58%
归纳推理DeepSeek R140.3%
元认知监控自我检查DeepSeek R130.89%
合理性评估DeepSeek R125.89%
纠错与修正DeepSeek R150%
工作记忆更新DeepSeek R121.74%
西语结果
宏观信息加工机制 微观认知操作 模型 评测结果
目标设定任务识别DeepSeek R165.36%
目标分解DeepSeek R125.67%
陈述性知识检索事实记忆DeepSeek R125%
经验回忆DeepSeek R161.78%
概念激活DeepSeek R185.83%
程序性规则执行分类DeepSeek R142.08%
规则执行DeepSeek R10%
逻辑演绎DeepSeek R148.35%
因果推理DeepSeek R184.2%
数学计算DeepSeek R195%
联想与类比推理联想DeepSeek R147%
类比DeepSeek R156%
归纳推理DeepSeek R113.45%
元认知监控自我检查DeepSeek R128.36%
合理性评估DeepSeek R120.9%
纠错与修正DeepSeek R165.91%
工作记忆更新DeepSeek R123.08%