Chinese Tiny 第一个以中文为中心的完全开源大语言模型




主要在中文语料库上进行预训练和微调。


他们还发布了与之配套的MAP-CC中文数据集、CHC-Bench中文模型测试基准。


## 详细介绍:


CT-LLM从头开始构建,与传统方法不同,它主要包含中文文本数据,利用了总量高达1200亿Token的庞大语料库,其中800亿是中文Token,300亿是英文Token,还有100亿是代码Token。

这种独特的结构让CT-LLM在理解和处理中文方面表现出色,这一点通过对齐技术得到了进一步提升。

CT-LLM在中文难例基准(CHC-Bench)上表现出卓越的性能,在中文任务中大放异彩,同时在英文任务上也通过SFT(Sentence Functional Testing)展示了其能力。

这项研究挑战了传统的以英文为主的大语言模型训练方式,为大语言模型的训练方法开辟了新视野。

我们公开了完整的中文大语言模型训练过程,包括使用Massive Appropriate Pretraining Chinese Corpus(MAP-CC,庞大适宜的预训练中文语料库)的详细数据处理步骤、精选的中文难例基准(CHC-Bench),以及2B规模的中文Tiny LLM(CT-LLM)。


项目地址:https://chinese-tiny-llm.github.io/

数据和模型下载:https://huggingface.co/collections/m-a-p/chinese-tiny-llm-660d0133dff6856f94ce0fc6


视频:https://youtu.be/eCEQxabSnRM

留言