跳轉至

国内外大模型比较

本文将从以下几个方面展开讨论,并讲述国内外大模型之间的区别。

  1. AIGC和大模型
  2. ChatGPT和国内大模型对比
  3. 国内大模型差在哪里
  4. 小结

AIGC和大模型

ChatGPT最近无疑是最火的AI模型,前阵子从CV的Diffusion Model中拿到了交接棒,给AI,AIGC续上了热度。几天内能达到100万注册用户,里面国内用户占比应该不少。 从效果来看,ChatGPTDiffusion Model都有很惊艳的效果,但个人觉得ChatGPT带来的震撼会更多一点。Diffusion Model做图片生成本质上还只是一种能力的展现, 而ChatGPT展示的能力范围就太广了,这也是几天内能达到100万注册用户的原因,大家总能想到他更新奇的应用。

大家在疯狂测试的时候也看到很多羡慕的声音,为什么每次都是国外先有的,比如GPT-3DALLEDiffusion ModelChatGPT等等,国内什么时候能有个火出圈得模型, 本文就想找一两个国内的大模型和ChatGPT对比一下差距在哪里,顺便也提一些自己的感触。

ChatGPT和国内大模型对比

ChatGPT目前网上已经有很多的测试图片了,但没有系统性的整理不同能力级别,我这边尝试按照支持场景去对比。国内大模型选择两个,一个是GPT-3中文版,另一个是GLM-130B, 主要是这两个demo体验还可以。先给出模型链接:

PS: 写在对比之前,每个场景只是随便找一个case测试,存在偶然性,而且评价对比也全是个人感觉

代码生成

先从代码生成开始,考个面试题看看

ChatGPT生成的图片

GPT-3生成的图片

GLM-130B生成的图片

PS: 代码生成整体效果来看, `ChatGPT` > `中文GPT-3` > `GLM-130B`. `ChatGPT` 除了写出代码,还能告诉你怎么去使用,并且配有文本,有CSDN代码那味了!

翻译生成

ChatGPT翻译生成

中文GPT-3翻译生成

GLM-130B翻译生成

翻译生成整体来看, `ChatGPT` > `GLM-130B` > `中文GPT-3`,可能是因为前两个都是多语言的大模型,`中文GPT-3`就只有中文能力

SQL语句的生成

sql语句算是对大部分代码开发者来说比较常用的了,测试一下这个效果

ChatGPT生成SQL

中文GPT-3生成SQL

GLM-130B生成SQL

SQL语句生成整体效果来看, `ChatGPT` > `中文GPT-3` > `GLM-130`

常识问答

针对一些常识问答,看看效果怎么样?

ChatGPT常识回答

中文GPT-3常识回答

GLM-130B常识回答

常识问答生成这个case来看, `ChatGPT` > `中文GPT-3` > `GLM-130B`

事实性问答

ChatGPT事实性回答

中文GPT-3事实性回答

GLM-130B事实性回答

事实性问答生成这个case来看, `ChatGPT`虽然列了很多,但是没有捕捉到核心,`中文GPT-3`这个提到了青训,还是挺难的对,所以:`中文GPT-3` > `ChatGPT` > `GLM-130B`

小说续写

找个中国名著,看能不能beat掉外来的和尚

`ChatGPT 小说续写

中文GPT-3小说续写

GLM-130B`小说续写

测试到现在,国内大模型终于扳回一城,不容以啊,个人感觉: `中文GPT-3` > `GLM-130B` > `ChatGPT`

诗词生成

再来个中国元素的诗词测试

ChatGPT 诗词生成

中文GPT-3`诗词生成

GLM-130B`诗词生成

诗词这个ChatGPT写的有点错误了,中文`GPT-3`这个续写的是正确的,个人感觉: `中文GPT-3` > `ChatGPT` > `GLM-130B`

专业文稿撰写

因为中文GPT-3这个不支持英文,所以就测试下中文的专业文稿撰写能力

ChatGPT 专业文稿撰写

中文GPT-3`专业文稿撰写

GLM-130B`专业文稿撰写

这个case比较难对比出来,`ChatGPT`效果略好一些,但是生成长度有点短了,基本打成个平手吧

文案生成

ChatGPT 文案生成

中文GPT-3`文案生成

GLM-130B`文案生成

文案生成这个case来看,还是`ChatGPT`略胜一筹, `ChatGPT` > `中文GPT-3` > `GLM-130B`

理论知识

ChatGPT 文案生成

中文GPT-3`文案生成

GLM-130B`文案生成

理论知识生成这个case,差的不是特别大,给到生成内容更多的`GLM-130B`, `GLM-130B` > `ChatGPT` > `中文GPT-3`

对联生成

ChatGPT 对联生成

中文GPT-3`对联生成

GLM-130B`对联生成

对联生成这个case,`ChatGPT`有点差了,没有直接给出下联, `中文GPT-3` > `GLM-130B` > `ChatGPT`

菜谱生成

ChatGPT 菜谱生成

中文GPT-3`菜谱生成

GLM-130B`菜谱生成

菜谱生成这个case,中文GPT-3和ChatGPT都还可以,但和原本的做法还是有一定差距,凑活能吃吧: ChatGPT > 中文GPT-3 > GLM-130B

推理生成

推理能力是很好的测试大模型是否只是数据驱动的一个场景

ChatGPT 推理生成

中文GPT-3`推理生成

GLM-130B`推理生成

推理生成这个case,`中文GPT-3`和`ChatGPT`都回答对了,`中文GPT-3` = `ChatGPT` > `GLM-130B`

词语解释

ChatGPT 词语解释

中文GPT-3`词语解释

GLM-130B`词语解释

词语解释这个case,`ChatGPT`和`GLM`都回答对了,而中文GPT-3更多的是在说怎么能够做到事半功倍,所以:`ChatGPT` = `GLM-130B` > `中文GPT-3`

标题生成

ChatGPT 标题生成

中文GPT-3`标题生成

GLM-130B`标题生成

标题生成这个case,中文GPT-3效果更好一些,生成的标题比较短,也比较高质量,`中文GPT-3` > `ChatGPT` > `GLM-130B`

国内大模型差在哪里

对比下来,国产大模型和ChatGPT的差距还是不小的,不管是从生成的准确度,以及答案的体验上都更好一些。那么ChatGPT优势在哪里,网上也有很多老师做了一些点评,其实已经很全了。我这里也写下个人的感受:

  • 数据 我这边个人最大的感受就是数据,这个数据不是指无监督的数据,也不是下游数据集的那种标注数据,而是真正human feedback的数据,不管是无监督还是下游标注数据,其实和人的query方式或者人的输入形式都不一样,所以human prompt input或者human instruct input很重要。

  • 新的训练范式 之前预训练+finetune的范式已经不适合于大模型了,大模型的能力绝对不止于下游任务的finetune。这个其实是网上很多老师都提到的,新的预训练+预精调+RLHF,在无监督预训练得到的大模型基础上,收集human feedback数据之后,进行human label,然后无监督数据训练的大模型在标注的数据上进行预精调。预精调之后,再对sampling 生成的结果利用强化学习RL去把人类偏好的答案前置

  • RLHF 引入human feedback的强化学习确实起到了一些作用,可以让模型不断的能够迭代学习升级,这个确实是解决了之前大模型的一个痛点,之前大模型训练完成也就基本结束了,想要再优化很难而且也不知道从哪个角度去优化,RLHF无疑是给大模型长期持续优化提供了一个指明灯。

当然,ChatGPT也不是无所不能,他也有这很致命的缺点,比如知识性比较差,而且有时候答案缺乏营养,这其实也是知识的体现,如果能把这个解决了,那真的是可以通过图灵测试了,这会不会是GPT-4呢?

小结

国产大模型还是有很长的路要走,之前小编一直的观点是中文社区的数据质量比较差,也比较杂,很难像英文大模型那样有一个那么惊艳的效果,但从ChatGPT来看,数据不是问题,中文大模型也是能够训出一个高质量的。用一句话送给自己,也送给在这个大模型赛道上努力的朋友:道阻且长 行则将至 行而不辍 未来可期。 (来源:知乎)