有人用9M参数从零搭建了一个语言模型,号称可以在5分钟内用免费的Colab T4训练完成。乍一听,这对于那些被大模型复杂性吓退的人来说,似乎是个福音。然而,我的判断是,这更像是一场技术炫技,而非实质性突破。
这位开发者用130行PyTorch代码和6万条合成对话,打造了这个所谓的“精简版”语言模型。说实话,这样的参数量级和训练规模,和动辄上亿参数的大模型比起来,简直不值一提。这个模型甚至有个有趣的设定——一条鱼认为生命的意义是食物。听起来很有趣对吧?但问题是,它能做的不多。
从技术角度看,这是利用Vanilla transformer构建的基础模型,适合于初学者了解语言模型的内部运作,但对于解决实际问题或者说服大家“语言模型其实很简单”,恐怕力不从心。毕竟,真正的大模型背后是海量的数据、复杂的算法调优,以及无数次的实验和迭代。
当然,这种“自娱自乐”式的开发并非没有意义。它为那些想要深入理解语言模型但被庞大的参数和复杂的算法劝退的人提供了一扇小窗。开发者甚至鼓励大家fork代码,换上自己的角色个性,这多少有点像在告诉大家:快来玩一玩,你也可以做个模型。
问题是,这种“模型DIY”能否让更多的人理解并参与到大模型的研发中去?还是说,它不过是一次自我陶醉的过程?我不禁要问,这种小模型的流行,究竟是对于大模型的挑战,还是徒增噪音?
值得琢磨的一点是:当大多数人还在大模型的高门槛外徘徊时,这种小模型能否成为一把入门的钥匙,还是仅仅是一次不痛不痒的尝试?如果我猜错了,当我什么都没说。

TopsTip