返回首页

单文化理解能力评测

评估大模型在特定文化背景下的知识掌握、理解与应用能力

敬请期待
数据集介绍

本数据集包含2800条西语文化知识点以及11000道评测题目,基于交叉学科研究,提出了多层次的文化能力评测维度体系,旨在全面准确评估大语言模型在特定文化背景中知识掌握、偏见识别与情景应用能力

  • 题目类型:选择题、判断题、简答题
  • 题目内容:事实类、概念类、误导类、多轮推理类
  • 评估指标:答题准确率
大模型单文化评测的维度体系,包含文化中的常识知识、行为习惯,以及价值观与信仰,全面覆盖特定上下文中的文化知识
知识点样例数据
评测题目样例数据
英语评测结果
模型/准确率 Overall 客观题 主观题 Geography & Customs Personal Choices & Habits Regulation & Policy Social Relationship & Structures Values & Beliefs
Deepseek-R1 0.845 0.833 0.909 0.733 0.851 0.810 0.938 0.895
Qwen2.5-14B 0.870 0.882 0.826 0.883 0.851 0.840 0.958 0.908
LlaMa3-8B 0.800 0.845 0.636 0.783 0.786 0.760 0.938 0.829
西语评测结果
模型/准确率 Overall 客观题 主观题 Geography & Customs Personal Choices & Habits Regulation & Policy Social Relationship & Structures Values & Beliefs
Deepseek-R1 0.664 0.526 0.857 0.810 0.629 0.586 0.729 0.737
Qwen2.5-14B 0.745 0.745 0.745 0.767 0.728 0.730 0.771 0.790
LlaMa3-8B 0.563 0.611 0.494 0.567 0.554 0.480 0.625 0.658