在人工智能领域,大型语言模型(LLM)因其强大的处理能力和丰富的知识储备而备受瞩目。然而,随着模型规模的不断扩大,其计算资源的需求也随之增加,这对移动设备和边缘计算设备来说是一个巨大的挑战。为了解决这一问题,一群智慧学者正在努力让大模型变得更小,以下是对这些学者的简要介绍。
1. 陈天奇
陈天奇是TVM、MXNET、XGBoost等项目的作者,同时也是CMU的助理教授和OctoML的CTO。他领导的团队开发了MLC LLM项目,该项目能够在各类硬件上原生部署任意大型语言模型。MLC LLM通过优化模型结构、压缩模型参数、提升模型效率等方式,使得大模型可以在移动端、消费级电脑端和Web浏览器上运行。
2. Meta
Meta(原Facebook)在LLM领域的研究成果颇丰。他们开源了LLaMA项目,这是一个基于GPT-3模型的小型版本,旨在让更多研究者和小公司能够训练自己的模型。LLaMA的发布为LLM领域的研究带来了新的可能性。
3. 斯坦福大学
斯坦福大学的研究者启动了Lamini项目,为开发者提供了从GPT-3到ChatGPT的快速调优方案。Lamini项目通过优化模型结构和参数,使得LLM能够在有限的计算资源下运行。
4. 微软
微软近期推出了2.7B参数的Phi-2模型,该模型在评测效果上表现出色。Phi-2模型采用了多种压缩和优化技术,使得模型在保持较高性能的同时,体积更小。
5. Google
Google发布了Gemini模型家族,其中包括1.8B参数和3.25B参数的模型,分别面向低端手机和高端手机。Gemini模型采用了多种压缩和优化技术,使得LLM能够在移动端运行。
6. BAAI和北京大学
BAAI和北京大学的研究者共同推出了Bunny轻量级多模态模型。Bunny模型通过数据优化,成功实现了小模型的逆袭,在多个基准测试中优于轻量级MLLMs。
总结
这些智慧学者通过不断探索和优化,使得大模型变得更加小巧,为LLM在移动端、边缘计算设备等场景中的应用提供了新的可能性。在未来,随着这些技术的不断发展,我们有望在更广泛的场景中享受到LLM带来的便利。
