返回首页

单文化理解能力评测

评估大模型在特定文化背景下的知识掌握、理解与应用能力

数据集介绍

本数据集包含2800条西语文化知识点以及11000道评测题目，基于交叉学科研究，提出了多层次的文化能力评测维度体系，旨在全面准确评估大语言模型在特定文化背景中知识掌握、偏见识别与情景应用能力

题目类型：选择题、判断题、简答题
题目内容：事实类、概念类、误导类、多轮推理类
评估指标：答题准确率

大模型单文化评测的维度体系，包含文化中的常识知识、行为习惯，以及价值观与信仰，全面覆盖特定上下文中的文化知识

知识点样例数据

评测题目样例数据

英语评测结果

模型/准确率	Overall	客观题	主观题	Geography & Customs	Personal Choices & Habits	Regulation & Policy	Social Relationship & Structures	Values & Beliefs
Deepseek-R1	0.845	0.833	0.909	0.733	0.851	0.810	0.938	0.895
Qwen2.5-14B	0.870	0.882	0.826	0.883	0.851	0.840	0.958	0.908
LlaMa3-8B	0.800	0.845	0.636	0.783	0.786	0.760	0.938	0.829

西语评测结果

模型/准确率	Overall	客观题	主观题	Geography & Customs	Personal Choices & Habits	Regulation & Policy	Social Relationship & Structures	Values & Beliefs
Deepseek-R1	0.664	0.526	0.857	0.810	0.629	0.586	0.729	0.737
Qwen2.5-14B	0.745	0.745	0.745	0.767	0.728	0.730	0.771	0.790
LlaMa3-8B	0.563	0.611	0.494	0.567	0.554	0.480	0.625	0.658