SeaLLMs东南亚大型语言模型

 





尽管大型语言模型(LLMs)在各种任务中取得了显着的成就,但仍然存在偏爱高资源语言(例如英语)的语言偏见,而往往以牺牲低资源语言和区域语言为代价。

为了解决这种不平衡问题,SEA引入了 SeaLLM,这是一系列创新的语言模型,专门针对东南亚 (SEA) 语言。 

SeaLLM 建立在 Llama-2 模型的基础上,并通过持续的预训练进一步发展,包括扩展词汇量、专门指导和对齐调整,以更好地捕捉区域​​语言的复杂性。这使他们能够尊重并反映当地的文化规范、习俗、风格偏好和法律考虑。

综合评估表明,相对于同类开源模型,SeaLLM-13b 模型在广泛的语言任务和助理式指令跟踪功能中表现出卓越的性能。此外,它们在非拉丁语言(如泰语、高棉语、老挝语和缅甸语)上的表现远远优于 ChatGPT-3.5,同时保持轻量级和操作成本效益。


同行比较


比较聊天机器人模型最可靠的方法之一是同行比较。在母语人士的帮助下,我们构建了一个名为 Sea-bench 的指令测试集,重点关注面向用户的聊天机器人所期望的各个方面,即:

(1) 任务解决(例如翻译和理解),

(2) 数学-推理(例如,数学和逻辑推理问题),

(3)一般指令(例如,一般领域的指令),

(4)自然问题(例如,通常非正式地编写的有关当地背景的问题),以及

(5)安全性相关问题。测试集也涵盖了我们关心的所有语言。

与 MT-bench 类似,我们使用 GPT-4 作为评估器来评估我们的模型与 ChatGPT-3.5 和其他基线之间的比较。


地区语言世界知识


M3Exam 是现实生活中的本地官方人类考试问题基准的集合。该基准涵盖了东南亚地区多个国家的问题,这些问题需要跨不同关键教育阶段(从小学到高中的难度)的强大多语言能力和文化知识。


如表所示,我们的 SeaLLM 模型优于大多数 13B 基线,并且更接近 ChatGPT 的性能。值得注意的是,对于泰语——一种看似资源匮乏的语言,我们的模型仅落后 ChatGPT 1%,尽管大小差异很大。


如果想详细了解,可以点开视频下方的链接。

谢谢观看本视频。要是喜欢,请订阅、点赞。谢谢


Paper: https://huggingface.co/papers/2312.00738 


视频:https://youtu.be/uyVlL7OKVKg

留言