LiteAI 团队介绍:

中国电信股份有限公司贵州分公司下属轻量化大模型研发团队。

Links:https://github.com/LiteAI-Team/HAREhttps://huggingface.co/LiteAI/Hare-1.1B-basehttps://www.modelscope.cn/models/LiteAITeam/Hare-1.1B-base/summaryhttps://arxiv.org/abs/2406.11410

1 简介

我们提出小模型训练数据构成新思路:在数据中适当且合理地引入人类先验知识,可以有效提升模型训练的效率和最终模型的性能,并且不会存在基准评测集的数据泄漏问题。

基于此,我们带来 HARE,一个由LiteAI团队研发的轻量化大模型,仅用约600B Tokens的训练数据便在同量级模型中取得良好的性能表现:

我们已将 HARE 的训练代码以及最佳实践开源,以提供学术研究,您可以访问我们的GIthub主页获取相关的code。

目前,HARE 仅支持英文,中文适配正在进行中,您可在如下链接获取模型权重:

HuggingFace ModelScope
Base HF:Hare-1.1B-base MS:Hare-1.1B-base
Chat HF:Hare-1.1B-Chat MS:Hare-1.1B-Chat
Tool demo HF:Hare-1.1B-Tool MS:Hare-1.1B-Tool

基于Open LLM Leadboard的模型性能评测结果如下:

Model Size Average MMLU ARC-C TQA Wino HS GSM
Phi1.5 1.3B 47.69 43.89 52.9 40.89 72.22 63.79 12.43
Qwen1.5 1.8B 46.55 46.71 37.88 39.43 60.30 61.42 33.59
Stablelm2 1.6B 45.25 38.95 43.34 36.78 64.56 70.45 17.44
HARE 1.1B 40.17 35.74 38.40 42.08 59.27 27.46 8.04
H2o-danube 1.8B 39.12 25.94 39.42 33.86 64.48 69.58 1.44
OpenELM 1.1B 38.47 27.05 36.69 33.86 63.22 65.71 1.21
Csg-wukong 1B 37.78 25.33 37.71 42.79 56.67 58.93 5.23
TinyLlama 1.1B 36.42 26.04 33.87 37.32 59.51 60.31 1.44

注意:

2 数据构建

受 Scaling Law 的影响,当前大模型的训练重度依赖大量的预训练语料,并且这些预训练语料多来自于网络爬取的网页数据,质量良莠不齐。特别是对于小模型,在有限参数量下想要得到较好的性能表现,就要关注到训练语料的数量与质量,这在资源受限环境中是种巨大的挑战。

2.1 构建原则