不服来战?一个程序员用 9M 参数在 Colab 上五分钟就训练出一个小型语言模型,这不是在开玩笑。用不到 130 行 PyTorch 代码,直接上手造出个能聊天的 Transformer,谁说大模型一定要烧钱烧时间?
说实话,这波操作我只能说是”科技圈新潮流”的一个缩影。人家用 60K 条合成对话数据就能整出个能自诩鱼生哲学的模型,简直是用实力在打脸那些动辄上亿参数、天价算力的豪华模型。对,它是个小模型,但它能在五分钟内用免费资源训练好,这不就是草根力量的最真实写照吗?
当然,有人可能会质疑这个小模型的实用性:换个角色就能变出不同人格,这听起来很美好对吧?但问题是——它准吗?这东西能像 GPT-3 那样给出让人惊艳的回答吗?但我想,造这个模型的作者也未必想跟大厂的巨型模型硬碰硬,人家更多是给我们开了个脑洞:语言模型的构建原理到底是怎么回事。
从另一个角度看,这种简单直接的尝试可能会引发更多开发者的兴趣。毕竟,不是每个人都有钱烧在显卡上,不是每个团队都有资源去训练那些巨无霸模型。小而美的模型就像是科技界的游击队,灵活、快速、成本低,还能满足特定需求。
如果说这件事有什么值得琢磨的,那就是:在这个动辄烧掉几百万美元的 AI 时代,小模型是否可以在某些领域上演逆袭?如果大厂们觉得这不值一提,那可真得小心了,因为有些革命往往是从草根开始的。如果我猜错了,当我什么都没说。

TopsTip