返回首页

跨文化理解能力评测

评估大模型跨文化情景下的判断和推理能力。

敬请期待
数据集介绍

本数据集包含900道涵盖文化隐喻与象征、日常生活与习俗、现代性与个体性、美学与审美范式、认知与思维方式、伦理与价值观、社会制度与结构、宗教与精神、宇宙论与形而上等9个类别的跨文化核心概念,旨在全面评估大型语言模型的跨文化情景判断和推理能力。

  • 题目类型:选择题、计算题、证明题
  • 评估指标:准确率、与参考答案的符合程度
大模型跨文化能力评测体系,以概念为线索评测大模型在跨文化场景中对特定文化差异的识别能力
样例数据
中文数据评测结果
模型/维度 文化隐喻与象征 日常生活与习俗 现代性与个体性 美学与审美范式 认知与思维方式 伦理与价值观 社会制度与结构 宗教与精神 宇宙论与形而上
LlaMa3-8B-Instruct 6.4% 4.5% 6.5% 1.5% 1.8% 5.2% 8.3% 2.9% 2.3%
Qwen2.5-14b-instruct 12.9% 13.4% 21% 7.6% 10.5% 5.4% 4.1% 4.4% 13.9%
DeepSeek-R1-Distill-Qwen-14B 25.8% 10.5% 23.3% 25.8% 16.7% 23.3% 32.9% 33.2% 17.8%
西语数据评测结果
模型/维度 文化隐喻与象征 日常生活与习俗 现代性与个体性 美学与审美范式 认知与思维方式 伦理与价值观 社会制度与结构 宗教与精神 宇宙论与形而上
LlaMa3-8B-Instruct 2.7% 1.3% 3.6% 1.6% 1.4% 4.3% 5.4% 4.5% 5.1%
Qwen2.5-14b-instruct 5.4% 4.4% 25% 23.3% 24.6% 12.9% 8.9% 10.5% 5.4%
DeepSeek-R1-Distill-Qwen-14B 35.1% 36.5% 34.7% 32.5% 23.3% 34.7% 43.3% 35.7% 13.9%