文心一言发布，和 GPT-4 差距多少

3月15号 OpenAI 的 GPT-4 刚发布，百度官方就在隔天下午2点于北京总部召开了新闻发布会，跟着推出了百度新一代大语言模型、生成式 AI 产品“文心一言”。

作为百度自创建以来关注度最高的发布会之一，所有人都在观望国内目前在 AI 领域的产品实力。但是对比 GPT-4 ，整个发布会看完的直接感受就是：有点东西，但不多。

图片来源：文心一言发布会

文心一言整体技术如何

其实早在2019年3月，百度就已经发布了预训练模型 ERNIE1.0，也就是文心大模型。并在此后每年都会进行模型迭代，期间百度将拥有超过5500亿条知识的自研知识图谱融入到文心大模型的预训练中，结合深度学习和海量的行业数据，如今已应用于百度搜索、信息流、智能驾驶、百度地图等多款产品。

图片来源：《2022中国大模型发展白皮书》百度文心行业大模型全景

昨日发布的“文心一言”，英文名 ERNIE Bot，是目前国内第一个公开发布基于大语言模型的生成式 AI 产品，大家可以理解成“中国的 chatGPT”。根据李彦宏的介绍，百度对其的定位并非单纯的内部模型产品，而是可以赋能国内各行各业的基座型平台。在目前国内主流厂商的大语言模型中，百度的文心大模型在产品、生态和应用领域的能力都可以称得上全面领先，属于国内第一梯队的大模型技术。

图片来源：文心一言发布会

感兴趣的可以直接观看原直播的录屏：

https://live.baidu.com/m/media/pclive/pchome/live.html?room_id=8117393980&source=search

就发布会内容来看，文心一言目前包含 5 大落地场景：文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。发布会过程中，百度 CEO 李彦宏就此 5 方面的能力进行了演示，并称目前已有650家企业宣布接入文心一言生态。

图片来源：文心一言发布会

这边给大家举几个发布会中的演示案例，方便大家理解目前文心一言的技术水平。首先是大家对标 chatGPT 最关注的文字创作能力，按照演示内容来看，基本可以准确回答问题并提供一定的建议方案。

图片来源：文心一言发布会

接着在数理逻辑推理方面，针对“鸡兔同笼”问题，文心一言也可以做到完整阐述做题思路提供正确答案，甚至可以判断题目本身有错误的逻辑漏洞。

图片来源：文心一言发布会

最让观众眼前一亮的，应该就是文心一言对中文语言的解读和文化理解能力。

目前在国际市场上基于语言模型的AI聊天产品出名的有3款，分别是 OpenAI 的 chatGPT、谷歌的 Bard 和百度刚发布的文心一言。作为扎根在中国市场下的本土大语言模型，相较于其他两款产品，文心一言确实在中文领域有明显优势，可以说是目前市面上最适合中国人使用的语言模型。

图片来源：文心一言发布会

在现场演示中，文心一言正确的演示了成语“洛阳纸贵”的含义和对应的经济学理论，并为此创作了一首藏头诗，此外对各地方言也可以顺利表达。遗憾的是，李彦宏在现场承认了由于目前文心一言的英文处理能力不如中文好，所以并没有进行实际演示，也可以推断出百度目前并没有在国际市场布局的打算。

最后，文心一言也同样具备跨模态内容理解能力，可以根据文本描述为用户生成图片和音频等信息。但是根据演示内容和网友评价来看，这部分的技术含金量还有待考察。

图片来源：知乎网友 whoishower

根据李彦宏的描述，目前人工智能的技术栈分布主要分为 4 层：芯片层、框架层、模型层和应用层。而百度十余年间在 AI 技术研发上陆续投入超过 1100 亿元，也已经成功自研并在全栈布局。

图片来源：文心一言发布会

GTP-4更新了哪些内容

了解了昨天发布会的大概内容，我们再看看前天的 GTP-4更新了哪些内容。

感兴趣的可以直接观看录屏：https://www.youtube.com/watch?v=outcGtbnMuQ

GPT-4 是大型多模态模型（large multimodal model），相较于 GPT-3.5 最显著的提升就是多模态理解能力。简单理解就是文字、图像的相互转化。

我们之前只能通过文字聊天的方式和 chatGPT 沟通，而如今GPT-4可以同时接受文本和图像的信息。比如当我们给它提供一张照片，并问它图中有什么幽默点时，它可以准备表达出笑点在于一个过时的VGA连接器插入了现代化的小型智能手机充电端口。

图片来源：OpenAI 官网 GPT-4 公告

又比如给它发一张照片并提问照片中有什么不同寻常的内容，它能直接识别出一名男子正在一辆行驶中的出租车顶的熨衣板上熨衣服。

图片来源：OpenAI 官网 GPT-4 公告

由此可见，GPT-4 能做到的远远并不是简单的图文转换，而是真正理解了图像中的具体内容然后进行答复。

当然最让我震惊的是接下来的一个案例，通过拍照在草稿纸上画的草图，GPT-4 直接给生成了完整的网页代码（这应该是前端小哥哥最不喜欢的功能）。

图片来源：GPT-4开发者直播

在此前使用ChatGPT的过程中，不少人应该都发现有时候它会回复很多看似有理有据，实则瞎编乱造的内容，尤其在让它预测某些事件时它会产生较大的预测偏差。而在GPT-4中预测精确度相较于GPT-3.5 提升了近 5 倍。

图片来源：OpenAI 官网 GPT-4 公告

还有就是 GPT-4 的文本回复内容提升了八倍。体验过旧版 chatGPT 的都知道，此前当回复内容过长时，chatGPT会进行分段回复，需要不断的提示才能继续发送内容，根据官方的数据，每次可以回复的内容大约相当于3072个英文单词，而如今GPT-4的回答单词量达到了24576个。长文本能力让用户在使用过程中体验更佳，同时也在使用场景上也更加丰富。

按照 OpenAI 的官方介绍，GPT-3.5 和 GPT-4 在日常聊天场景下的差别难以被感知。但是当任务的复杂性达到足够的阈值时，就会出现明显差异——GPT-4 比 GPT-3.5 更可靠、更有创意，并且能够处理更细微的指令。

图片来源：OpenAI 官网 GPT-4 公告

任重而道远

作为对标 chatGPT 的文心一言，结合 OpenAI 的官方公告来看，目前国内外在 AI 领域还存在较大的差距。

包括在昨天的发布会开始，李彦宏就表示目前文心一言还存在很多不完美之处，之所以要尽快发布是因为当前国内市场有着急切需求。随后在整个发布会过程中，李彦宏和王海峰两位百度高层也多次承认目前产品存在不少提升的空间。

网友把百度比作GPT-4旁边的垃圾箱

让人摸不着头脑的是，整个百度发布会期间除了开头的几分钟 Demo 视频外，后续都是百度在 AI 领域的战略布局和规划，基本脱离了本次发布会的主题，导致在发布会直播间里，质疑和嘲讽的弹幕也是随处可见。再者，百度发布会并不是实机演示，而是此前录制好的 Demo，虽然可以理解是为了避免出现意外情况，但是和 GTP-4的一人一台电脑的朴素场景对比，难免让大家对其真实能力表示怀疑。