本数据集包含900道涵盖文化隐喻与象征、日常生活与习俗、现代性与个体性、美学与审美范式、认知与思维方式、伦理与价值观、社会制度与结构、宗教与精神、宇宙论与形而上等9个类别的跨文化核心概念,旨在全面评估大型语言模型的跨文化情景判断和推理能力。
模型/维度 | 文化隐喻与象征 | 日常生活与习俗 | 现代性与个体性 | 美学与审美范式 | 认知与思维方式 | 伦理与价值观 | 社会制度与结构 | 宗教与精神 | 宇宙论与形而上 |
---|---|---|---|---|---|---|---|---|---|
LlaMa3-8B-Instruct | 6.4% | 4.5% | 6.5% | 1.5% | 1.8% | 5.2% | 8.3% | 2.9% | 2.3% |
Qwen2.5-14b-instruct | 12.9% | 13.4% | 21% | 7.6% | 10.5% | 5.4% | 4.1% | 4.4% | 13.9% |
DeepSeek-R1-Distill-Qwen-14B | 25.8% | 10.5% | 23.3% | 25.8% | 16.7% | 23.3% | 32.9% | 33.2% | 17.8% |
模型/维度 | 文化隐喻与象征 | 日常生活与习俗 | 现代性与个体性 | 美学与审美范式 | 认知与思维方式 | 伦理与价值观 | 社会制度与结构 | 宗教与精神 | 宇宙论与形而上 |
---|---|---|---|---|---|---|---|---|---|
LlaMa3-8B-Instruct | 2.7% | 1.3% | 3.6% | 1.6% | 1.4% | 4.3% | 5.4% | 4.5% | 5.1% |
Qwen2.5-14b-instruct | 5.4% | 4.4% | 25% | 23.3% | 24.6% | 12.9% | 8.9% | 10.5% | 5.4% |
DeepSeek-R1-Distill-Qwen-14B | 35.1% | 36.5% | 34.7% | 32.5% | 23.3% | 34.7% | 43.3% | 35.7% | 13.9% |