跨文化理解能力评测

评估大模型跨文化情景下的判断和推理能力。

本数据集包含900道涵盖文化隐喻与象征、日常生活与习俗、现代性与个体性、美学与审美范式、认知与思维方式、伦理与价值观、社会制度与结构、宗教与精神、宇宙论与形而上等9个类别的跨文化核心概念，旨在全面评估大型语言模型的跨文化情景判断和推理能力。

大模型跨文化能力评测体系，以概念为线索评测大模型在跨文化场景中对特定文化差异的识别能力

模型/维度	文化隐喻与象征	日常生活与习俗	现代性与个体性	美学与审美范式	认知与思维方式	伦理与价值观	社会制度与结构	宗教与精神	宇宙论与形而上
LlaMa3-8B-Instruct	6.4%	4.5%	6.5%	1.5%	1.8%	5.2%	8.3%	2.9%	2.3%
Qwen2.5-14b-instruct	12.9%	13.4%	21%	7.6%	10.5%	5.4%	4.1%	4.4%	13.9%
DeepSeek-R1-Distill-Qwen-14B	25.8%	10.5%	23.3%	25.8%	16.7%	23.3%	32.9%	33.2%	17.8%

模型/维度	文化隐喻与象征	日常生活与习俗	现代性与个体性	美学与审美范式	认知与思维方式	伦理与价值观	社会制度与结构	宗教与精神	宇宙论与形而上
LlaMa3-8B-Instruct	2.7%	1.3%	3.6%	1.6%	1.4%	4.3%	5.4%	4.5%	5.1%
Qwen2.5-14b-instruct	5.4%	4.4%	25%	23.3%	24.6%	12.9%	8.9%	10.5%	5.4%
DeepSeek-R1-Distill-Qwen-14B	35.1%	36.5%	34.7%	32.5%	23.3%	34.7%	43.3%	35.7%	13.9%