CMMLU 由来自中文教科书的多项选择题组成

CMMLU 由来自中文教科书的多项选择题组成。它已被用来评估中文LLMs，包括Qwen-72B、Yi-Chat等。为了简单起见，我们在零样本设置中进行评估。

CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在中文语境下的知识和推理能力。

CMMLU涵盖了从基础学科到高级专业水平的67个主题。

它包括：需要计算和推理的自然科学，需要知识的人文科学和社会科学,以及需要生活常识的中国驾驶规则等。

此外，CMMLU中的许多任务具有中国特定的答案，可能在其他地区或语言中并不普遍适用。因此是一个完全中国化的中文测试基准。

随着大型语言模型 (LLMs) 的功能不断进步，评估其性能同时变得更加重要和更具挑战性。本文旨在以 CMMLU 的形式解决普通话的这个问题，CMMLU 是一个涵盖自然科学、社会科学、工程和人文学科等各个学科的综合汉语基准。我们对 20 多个当代多语言和中文 LLMs 进行了全面评估，评估他们在不同科目和环境中的表现。结果显示，大多数现有的 LLMs 甚至很难达到 60% 的准确率，这是汉语考试的及格分数。这凸显出 LLMs 的功能还有很大的改进空间。此外，我们还进行了大量实验来确定影响模型性能的因素，并提出增强LLMs的方向。 CMMLU填补了中文环境下评估大型语言模型的知识和推理能力的空白。

为此，研究人员创建了各种基准，旨在评估不同模型的能力（Wang et al., 2019b; a; Lin et al., 2022; Zellers et al., 2019; Hendrycks et al., 2021b; Chen et al., 2022）。，2021）。具体来说，Hendrycks 等人。 (2021a)提出了MMLU，这是一个涵盖从基础数学、计算机科学到管理、法律等各种任务的基准，可以用来综合衡量LLM能力中嵌入的知识。由于其多选题格式便于评估，并且涵盖的学科领域广泛，因此它已被广泛用作LLMs编码的知识的基本评估工具。然而，这个基准是英语的，这限制了它评估其他语言的 LLMs 的能力。尽管一些研究人员（OpenAI，2023）尝试自动翻译它以评估其他语言的LLMs，但数据集中对西方（特别是美国）文化的固有偏见使其不适合甚至不适合评估< b1005></b1005> 跨越不同的文化和语言。

在本文中，我们提出了 CMMLU（图 1），这是一个综合性的汉语评估套件，专门用于评估LLMs在汉语语言和文化背景下的高级知识和推理能力。 CMMLU 涵盖广泛的学科，包括从初级到高级专业水平的 67 个主题。它包括需要计算专业知识的学科，例如物理和数学，以及人文和社会科学内的学科。由于其特定的上下文细微差别和措辞，其中许多任务不容易从其他语言翻译。此外，CMMLU 中的许多任务都有针对中国的答案，这些答案在其他地区或语言中可能并不普遍适用或被认为是正确的。

我们在 CMMLU 上评估了 GPT4、ChatGPT 以及 20 多种高级开源多语言和中文 LLMs。结果表明，大多数模型都很难达到 60% 的准确度，而随机准确度为 25%。值得注意的是，GPT4 的平均准确率达到 71%。这些发现凸显了LLMs在汉语知识和语言理解方面还有很大的改进空间。

此外，通过大量的实验，我们发现：（1）大多数现有模型并没有受益于CMMLU中的思维链提示；（2）少样本示例有助于基础模型理解任务并增强其推理能力，但对经过监督微调（SFT）或人类反馈强化学习（RLHF）的模型没有帮助； (3) 与没有否定词的问题相比，LLMs在带有否定词的问题上表现更差，但最近发布的模型通过更好的预训练数据或微调来缓解这种差异； (4) 带有子选项的问题（第 4.2 节）对于所有现有的 LLMs 来说都很困难，甚至 GPT4 在此类问题上的准确率也下降了 20%。

如果想详细了解，可以点开视频下方的链接。

谢谢观看本视频。要是喜欢，请订阅、点赞。谢谢

论文原文：https://arxiv.org/html/2306.09212v2

Github： https://github.com/haonan-li/CMMLU

视频：https://youtu.be/_lzpvJCxebY