CMMLU 由来自中文教科书的多项选择题组成



CMMLU 由来自中文教科书的多项选择题组成。它已被用来评估中文LLMs,包括Qwen-72B、Yi-Chat等。为了简单起见,我们在零样本设置中进行评估。


CMMLU是一个综合性的中文评估基准,专门用于评估语言模型在中文语境下的知识和推理能力。

CMMLU涵盖了从基础学科到高级专业水平的67个主题。

它包括:需要计算和推理的自然科学,需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。

此外,CMMLU中的许多任务具有中国特定的答案,可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。


随着大型语言模型 (LLMs) 的功能不断进步,评估其性能同时变得更加重要和更具挑战性。本文旨在以 CMMLU 的形式解决普通话的这个问题,CMMLU 是一个涵盖自然科学、社会科学、工程和人文学科等各个学科的综合汉语基准。我们对 20 多个当代多语言和中文 LLMs 进行了全面评估,评估他们在不同科目和环境中的表现。结果显示,大多数现有的 LLMs 甚至很难达到 60% 的准确率,这是汉语考试的及格分数。这凸显出 LLMs 的功能还有很大的改进空间。此外,我们还进行了大量实验来确定影响模型性能的因素,并提出增强LLMs的方向。 CMMLU填补了中文环境下评估大型语言模型的知识和推理能力的空白。


为此,研究人员创建了各种基准,旨在评估不同模型的能力(Wang et al., 2019b; a; Lin et al., 2022; Zellers et al., 2019; Hendrycks et al., 2021b; Chen et al., 2022)。 ,2021)。具体来说,Hendrycks 等人。 (2021a)提出了MMLU,这是一个涵盖从基础数学、计算机科学到管理、法律等各种任务的基准,可以用来综合衡量LLM能力中嵌入的知识。由于其多选题格式便于评估,并且涵盖的学科领域广泛,因此它已被广泛用作LLMs编码的知识的基本评估工具。然而,这个基准是英语的,这限制了它评估其他语言的 LLMs 的能力。尽管一些研究人员(OpenAI,2023)尝试自动翻译它以评估其他语言的LLMs,但数据集中对西方(特别是美国)文化的固有偏见使其不适合甚至不适合评估< b1005></b1005> 跨越不同的文化和语言。


在本文中,我们提出了 CMMLU(图 1),这是一个综合性的汉语评估套件,专门用于评估LLMs在汉语语言和文化背景下的高级知识和推理能力。 CMMLU 涵盖广泛的学科,包括从初级到高级专业水平的 67 个主题。它包括需要计算专业知识的学科,例如物理和数学,以及人文和社会科学内的学科。由于其特定的上下文细微差别和措辞,其中许多任务不容易从其他语言翻译。此外,CMMLU 中的许多任务都有针对中国的答案,这些答案在其他地区或语言中可能并不普遍适用或被认为是正确的。


我们在 CMMLU 上评估了 GPT4、ChatGPT 以及 20 多种高级开源多语言和中文 LLMs。结果表明,大多数模型都很难达到 60% 的准确度,而随机准确度为 25%。值得注意的是,GPT4 的平均准确率达到 71%。这些发现凸显了LLMs在汉语知识和语言理解方面还有很大的改进空间。


此外,通过大量的实验,我们发现:(1)大多数现有模型并没有受益于CMMLU中的思维链提示; (2)少样本示例有助于基础模型理解任务并增强其推理能力,但对经过监督微调(SFT)或人类反馈强化学习(RLHF)的模型没有帮助; (3) 与没有否定词的问题相比,LLMs在带有否定词的问题上表现更差,但最近发布的模型通过更好的预训练数据或微调来缓解这种差异; (4) 带有子选项的问题(第 4.2 节)对于所有现有的 LLMs 来说都很困难,甚至 GPT4 在此类问题上的准确率也下降了 20%。


如果想详细了解,可以点开视频下方的链接。

谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢


论文原文:https://arxiv.org/html/2306.09212v2

Github: https://github.com/haonan-li/CMMLU 


视频:https://youtu.be/_lzpvJCxebY

留言