自己动手造 LLM，五分钟搞定，这波操作有点意思

不服来战？一个程序员用 9M 参数在 Colab 上五分钟就训练出一个小型语言模型，这不是在开玩笑。用不到 130 行 PyTorch 代码，直接上手造出个能聊天的 Transformer，谁说大模型一定要烧钱烧时间？

说实话，这波操作我只能说是”科技圈新潮流”的一个缩影。人家用 60K 条合成对话数据就能整出个能自诩鱼生哲学的模型，简直是用实力在打脸那些动辄上亿参数、天价算力的豪华模型。对，它是个小模型，但它能在五分钟内用免费资源训练好，这不就是草根力量的最真实写照吗？

当然，有人可能会质疑这个小模型的实用性：换个角色就能变出不同人格，这听起来很美好对吧？但问题是——它准吗？这东西能像 GPT-3 那样给出让人惊艳的回答吗？但我想，造这个模型的作者也未必想跟大厂的巨型模型硬碰硬，人家更多是给我们开了个脑洞：语言模型的构建原理到底是怎么回事。

从另一个角度看，这种简单直接的尝试可能会引发更多开发者的兴趣。毕竟，不是每个人都有钱烧在显卡上，不是每个团队都有资源去训练那些巨无霸模型。小而美的模型就像是科技界的游击队，灵活、快速、成本低，还能满足特定需求。

如果说这件事有什么值得琢磨的，那就是：在这个动辄烧掉几百万美元的 AI 时代，小模型是否可以在某些领域上演逆袭？如果大厂们觉得这不值一提，那可真得小心了，因为有些革命往往是从草根开始的。如果我猜错了，当我什么都没说。

-=||=-收藏赞 (0)