CT-LLM：一个 2B 微小的 LLM

它说明了在开发 LLMs 时向优先考虑中文的关键转变

长期以来，自然语言处理领域一直由主要迎合英语语言的模型主导。这种固有的偏见让全球很大一部分人口感到代表性不足和被忽视。然而，一个突破性的新发展将挑战这一现状，并迎来一个更具包容性的语言模型时代——中文 Tiny LLM (CT-LLM)。

想象一个语言障碍不再成为获取尖端人工智能技术的障碍的世界。这正是 CT-LLM 背后的研究人员通过优先考虑世界上使用最广泛的语言之一的中文来实现的目标。这个 20 亿参数模型不同于主要在英语数据集上训练语言模型，然后将其适应其他语言的传统方法。

相反，CT-LLM 已经在数量惊人的 12,000 亿代币上进行了精心的预训练，战略重点是中国数据。预训练语料库包含令人印象深刻的 8404.8 亿个中文标记，辅之以 3148.8 亿个英文标记和 993 亿个代码标记。这种策略组合不仅使模型在理解和处理中文方面具有卓越的能力，而且增强了其多语言适应性，确保其能够轻松驾驭不同文化的语言景观。

但这还不是全部 – CT-LLM 采用了尖端技术，使其具有卓越的性能。其中一项创新是监督微调（SFT），它增强了模型对中文任务的熟练程度，同时增强了其在理解和生成英语文本方面的多功能性。此外，研究人员还采用了偏好优化技术，例如DPO（直接偏好优化），使CT-LLM与人类偏好保持一致，确保其输出不仅准确，而且无害且有益。

![ca1537bb79d5b662c38c0a11bede0585.png](:/76c54b8382f04b53b133d41dd4cbe1cb)

为了测试 CT-LLM 的能力，研究人员开发了中文硬案例基准（CHC-Bench），这是一套多学科的挑战性问题，旨在评估模型在汉语中的指令理解和遵循能力。中文。值得注意的是，CT-LLM在此基准测试中表现出色，在社会理解和写作相关任务中表现出色，展现了其对中国文化语境的强大把握。

CT-LLM 的开发代表了创建反映全球社会语言多样性的包容性语言模型的重大进步。通过从一开始就优先考虑中文，这一开创性的模型挑战了当前以英语为中心的范式，并为 NLP 的未来创新铺平了道路，以适应更广泛的语言和文化。凭借其卓越的性能、创新的技术和开源的培训流程，CT-LLM 成为自然语言处理领域更加公平和具有代表性的未来的希望灯塔。未来，语言障碍不再是获取前沿人工智能技术的障碍。

快速阅读： https://marktechpost.com/2024/04/10/ct-llm-a-2b-tiny-llm-that-illustrates-a-pivotal-shift-towards-prioritizing-the-chinese-language-in-developing-llms/

论文： https://arxiv.org/abs/2404.04167

高频页面： https://huggingface.co/collections/m-a-p/chinese-tiny-llm-660d0133dff6856f94ce0fc6

如果想详细了解，可以点开视频下方的链接。

谢谢观看本视频。要是喜欢，请订阅、点赞。谢谢

视频：https://youtu.be/mdo5XtNgu9U