LiteAI 团队介绍:
中国电信股份有限公司贵州分公司下属轻量化大模型研发团队。
Links:https://github.com/LiteAI-Team/HARE|https://huggingface.co/LiteAI/Hare-1.1B-base|https://www.modelscope.cn/models/LiteAITeam/Hare-1.1B-base/summary | https://arxiv.org/abs/2406.11410
我们提出小模型训练数据构成新思路:在数据中适当且合理地引入人类先验知识,可以有效提升模型训练的效率和最终模型的性能,并且不会存在基准评测集的数据泄漏问题。
基于此,我们带来 HARE,一个由LiteAI团队研发的轻量化大模型,仅用约600B Tokens的训练数据便在同量级模型中取得良好的性能表现:
我们已将 HARE 的训练代码以及最佳实践开源,以提供学术研究,您可以访问我们的GIthub主页获取相关的code。
目前,HARE 仅支持英文,中文适配正在进行中,您可在如下链接获取模型权重:
| HuggingFace | ModelScope | |
|---|---|---|
| Base | HF:Hare-1.1B-base | MS:Hare-1.1B-base |
| Chat | HF:Hare-1.1B-Chat | MS:Hare-1.1B-Chat |
| Tool demo | HF:Hare-1.1B-Tool | MS:Hare-1.1B-Tool |
基于Open LLM Leadboard的模型性能评测结果如下:
| Model | Size | Average | MMLU | ARC-C | TQA | Wino | HS | GSM |
|---|---|---|---|---|---|---|---|---|
| Phi1.5 | 1.3B | 47.69 | 43.89 | 52.9 | 40.89 | 72.22 | 63.79 | 12.43 |
| Qwen1.5 | 1.8B | 46.55 | 46.71 | 37.88 | 39.43 | 60.30 | 61.42 | 33.59 |
| Stablelm2 | 1.6B | 45.25 | 38.95 | 43.34 | 36.78 | 64.56 | 70.45 | 17.44 |
| HARE | 1.1B | 40.17 | 35.74 | 38.40 | 42.08 | 59.27 | 27.46 | 8.04 |
| H2o-danube | 1.8B | 39.12 | 25.94 | 39.42 | 33.86 | 64.48 | 69.58 | 1.44 |
| OpenELM | 1.1B | 38.47 | 27.05 | 36.69 | 33.86 | 63.22 | 65.71 | 1.21 |
| Csg-wukong | 1B | 37.78 | 25.33 | 37.71 | 42.79 | 56.67 | 58.93 | 5.23 |
| TinyLlama | 1.1B | 36.42 | 26.04 | 33.87 | 37.32 | 59.51 | 60.31 | 1.44 |
注意:
受 Scaling Law 的影响,当前大模型的训练重度依赖大量的预训练语料,并且这些预训练语料多来自于网络爬取的网页数据,质量良莠不齐。特别是对于小模型,在有限参数量下想要得到较好的性能表现,就要关注到训练语料的数量与质量,这在资源受限环境中是种巨大的挑战。