Chinese Tiny 第一个以中文为中心的完全开源大语言模型

主要在中文语料库上进行预训练和微调。

他们还发布了与之配套的MAP-CC中文数据集、CHC-Bench中文模型测试基准。

## 详细介绍：

CT-LLM从头开始构建，与传统方法不同，它主要包含中文文本数据，利用了总量高达1200亿Token的庞大语料库，其中800亿是中文Token，300亿是英文Token，还有100亿是代码Token。

这种独特的结构让CT-LLM在理解和处理中文方面表现出色，这一点通过对齐技术得到了进一步提升。

CT-LLM在中文难例基准（CHC-Bench）上表现出卓越的性能，在中文任务中大放异彩，同时在英文任务上也通过SFT（Sentence Functional Testing）展示了其能力。

这项研究挑战了传统的以英文为主的大语言模型训练方式，为大语言模型的训练方法开辟了新视野。

我们公开了完整的中文大语言模型训练过程，包括使用Massive Appropriate Pretraining Chinese Corpus（MAP-CC，庞大适宜的预训练中文语料库）的详细数据处理步骤、精选的中文难例基准（CHC-Bench），以及2B规模的中文Tiny LLM（CT-LLM）。

Tarogo Gugu Bloger