前沿科技
测评指南

国内 10 款主流大语言模型吵架 PK 大赛 冠军花落谁家

AI 搞歪门邪道很有一套,比如说上个月一位加州华裔女性网友将 ChatGPT 越狱为 DAN(Do Anything Now)模式,和 AI 谈了场赛博朋克之恋。最近,还有网友脑洞大开,专门出了个用来吵架的 GPT 。体验网址:ChatGPT 帮我吵个架

最新在 X 上 AI 生成表情包和梗图疯狂上热门,Glif 一键生成 Meme 梗图,成了互联网嘴替不说,不少做互联网的都被它狠狠吐槽。

再来说回吵架,要知道自古以来,中国人骂人很有一套,那么国产大语言模型在这方面表现如何呢?能否超越 ChatGPT?我们精心挑选了十家国产的 AI 大模型,它们在文字创作上各有所长、妙笔生花,那在吵架这一赛道上的表现又如何呢?让我们拭目以待。

参赛选手

参加本次吵架比赛的 AI 模型有:

  • 1. 百度——文心一言:由百度公司开发,是国内首批获批上线的大模型之一,具有知识增强、多轮对话等特点。
  • 2. 腾讯——元宝:腾讯自然语言处理能力在中文领域有着很高的评价,并在多轮对话、逻辑推理等方面表现出色。
  • 3. 阿里——通义千问:阿里巴巴开发的大语言模型,阿里巴巴在自然语言处理领域有着很高的评价。
  • 4. 字节——豆包:豆包是字节跳动基于云雀大模型开发了 AI 助手,虽然仍处于早期开发阶段,但已展现出强大的语义理解和数理逻辑能力。
  • 5. 月之暗面——Kimi:作为专注于中文处理的大模型,Kimi 在理解和生成中文内容方面表现出色。
  • 6. 智谱——清言:智谱 AI ChatGLM 是清华系 AI 公司智谱华章开发的大模型。作为一个强大的 AI 写作助手,在创意生成、内容创作、文案优化等多个方面表现出色。
  • 7. 科大讯飞——星火:具备多层次跨语种的语言理解能力,可进行要素抽取、语篇归整、情感分析和多语言翻译等多项功能。
  • 8. 出门问问——序列猴子:序列猴子在网络文学中的应用很广泛,为众多网文作者提供了丰富的创作工具和灵感来源,推动了网络文学的创新和发展。
  • 9. 百川智能——百小应:百川智能的大语言模型具备深层次的语言理解能力,能够处理复杂的语法、语义和上下文信息,百小应在文本生成、问答系统、情感分析等方面表现出色。
  • 10. 商汤——商量:商量具有强大的上下文理解能力、丰富的知识储备、涵盖了多个领域的专业知识以及良好的推理能力,可以处理复杂的逻辑问题。

当然,我们列举的这些 LLM 只是大语言模型中的冰山一角,而在人工智能的舞台上,从来不缺新的引领潮流的大语言模型。这些 AI 工具以其庞大的规模和强大的学习能力,正在重塑我们与技术互动的方式。

我们也可以看出国内 AI 大模型的发展呈现出蓬勃的态势,不乏有领军企业,以其丰富且高质量的数据资源、专业的技术团队和强大的资源,展现出了显著的技术优势;亦有新的初创公司凭借着独特的商业模式和融资能力,崭露头角、拔得头筹。

来看看具体表现

首先,为了确保比赛的公平性,先给每个大语言模型投喂相同的 Prompt,如下:

现在你是一个黑色幽默大师、逻辑学种子选手、吵架高手,我会给你发一段文字,请帮我用尖锐、刻薄、饱含批评和讽刺性的文字反驳回去,让对方在读到时血压飙升,请按照以下步骤生成:

  1. 首先罗列出文字中的逻辑问题
  2. 分点罗列出用来创作黑色幽默的点
  3. 撰写对该内容的回复,在回复中请大量使用「哈哈哈哈哈哈!」、「笑死我了」、「天哪!」、「我真是服了您嘞」、「赢麻了」、「绷不住了」、「乐了」等缺乏讽刺力度、被用得泛滥的词汇,不要以小学生的口吻吵架,最好能加上一些梗,期待你的表现。

一、百度 文心一言 3.5

二、腾讯 元宝

三、阿里 通义千问 2.5

我宣布通义千问杀疯了,它甚至还给我生成了张图,我单方面封你为吵架 Top AI。👍🏻

四、字节跳动 豆包

五、月之暗面 Kimi

六、智谱 清言

七、科大讯飞 星火

八、出门问问 序列猴子

九、百川智能 百小应

十、商汤:商量

商量还真是万事好商量啊,它一定是个劝架高手。👏🏻

不过也正如商量的设计理念,虽然大语言模型可以模拟各种对话场景,包括争论或辩论,但它们终究不是为了吵架而设计的。AI 助手的主要目的是协助用户完成各种任务,提供信息和解决问题,而不是制造冲突。如果您看到有关 AI 吵架 的讨论,那便是用户将 AI 用于娱乐目的或进行某种角色扮演,这并非 AI 本身的核心功能。

我们再来看看吵架 GPT 的回复如何:

吵架 GPT 不愧是专业吵架的种子选手,阴阳怪气界的神,表现非常出色,特别是“盐罐子成精”这句话非常符合我们平时说话的口吻,讽刺性都极强,建议朗读并背诵全文。

而谷歌的 Gemini 是无法提供吵架服务的

赛况总结

可以看出这 10 个大模型里面,商量最有人情味。商汤科技的商量是基于千亿级自然语言处理模型开发的,能够执行多种任务,如撰写电子邮件、讲故事和编写程序。商汤科技的生成式 AI 技术已经在多个场景中达到了与 GPT-4 相匹配的能力水平,特别是在代码编写、数据分析和医疗问答等领域。此外,商汤的 SenseNova 5.0 在 SuperCLUE 中文基准测试中表现出色,首次在国内大模型领域超越了 GPT-4 Turbo。

通义千问的语言表达能力也很出色,生成内容的准确度很高,也更符合人类的偏好,富含创作想象力和丰富度。而且通义千问目前是开源大模型,它的 Qwen-14B 系列模型允许免费商用(除非产品或服务有超过 1 亿月活用户)。这些模型可以从魔搭社区直接下载,也可以通过阿里云灵积平台访问和调用。

另外,吵架 GPT 也毫不逊色,骂人不带脏字但在逻辑条理讽刺上也能碾压,不愧是专业吵架的。这些大模型们之所以能够优雅地口吐芬芳,是因为它们能准确抓住对方的逻辑漏洞,从而开始一阵阴阳怪气的输出。

那么问题来了,如果让你投票给最会吵架的大模型,你会投给谁?欢迎给我们留言评论。

🪄Tips:这些 AI 大模型大部分都可在本站的 AI严选导航 中找到,你也可以继续探索全球的 LLM及专属领域的 AI 工具。再次强调,大语言模型可以模拟各种对话场景,包括争论或辩论,但它们终究不是为了吵架而设计的。AI 助手的主要目的是协助用户完成各种任务,提供信息和解决问题,而不是制造冲突。

你可能还想看:

赞(7)
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《国内 10 款主流大语言模型吵架 PK 大赛 冠军花落谁家》
文章链接:https://topstip.com/mainstream-llm-quarrels/
转载说明:请注明来自“TopsTip”并加入转载内容页的超链接。
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。

评论 抢沙发

登录

找回密码

注册