ChatGPT & Kimi，选择什么？

这是我们的第122篇原创文章

3月18日，AI创企月之暗面（Moonshot AI）宣布其智能助手Kimi在长上下文窗口技术上取得突破，无损上下文长度提升至200万字，目前已开启内测。

一石激起千层浪，Kimi这一举动激活了整个国产大模型市场。

3月22日晚上，阿里通义千问宣布，向所有人免费开放1000万字的长文档处理功能，成为全球文档处理容量第一的AI应用。也有媒体从知情人士处获悉，百度文心一言下个月将进行版本升级，也将开放长文本能力，文字范围会在200万—500万。

Kimi 爆火出圈，今天我们从普通使用者的角度来体验一下，作为AI聊天“扛把子”的ChatGPT 4 和国产爆火的 Kimi 在目前的常用领域表现如何？

以下主要从文本阅读分析能力，计算逻辑能力，文字编辑能力三个维度出发，希望对大家有所帮助。

Kimi 的最新突破是达到了无损上下文长度提升至200万字，这也是 Kimi 的优势所在，在这部分体验里，会从三个方向入手：常规文本的归纳总结；Kimi 在长文本上的阅读分析能力；国内联网搜索能力。

1.1常规归纳分析能力

这里选择了一篇环境保护方面的新闻稿，将新闻稿原本的段落全部删除后，以一整段文本的形式分别发送给 ChatGPT 和 Kimi ，看一下双方在文本的归纳总结上的能力。

从 ChatGPT 和 Kimi 的总结来看，ChatGPT 的归纳更着重于结构的清晰度，清晰的标明了10个典型案例的内容，然后总结全文，整体结构非常明确，而 Kimi 对于典型案例是一笔带过，重心更多放在了文章结尾的总结升华部分。个人在这部分的体验感是Kimi更了解国内平台新闻稿的结构，而ChatGPT的归纳更清晰明确，可以根据自己的需求去选择更合适的归纳方式。

1.2PDF长文本阅读能力

我选择了一份300多页的pdf文件让 Kimi 进行阅读总结，并且提问了一些简单的问题。

整体速度较快，10秒左右可以迅速的归纳文本内容，找出其中重点部分，并且可以应对简单的提问。

在长文本性能测试方面，一位AI大模型领域的开发者 Greg Kamradt 设计了一个名为“大海捞针”的大模型长文本性能测试方法：

在文本语料中藏入一个与文本语料不相关的句子（可以想象是在整本《西游记》里放入一句只会在《红楼梦》里出现的话），然后看大模型能不能通过自然语言提问的方式（Prompt）把这句话准确地提取出来。

Greg Kamradt 的“大海捞针”实验简述：

“大海”：Paul Graham 的文章合集作为语料

“针”：“The best thing to do in San Francisco is eat a sandwich and sit in Dolores Park on a sunny day.”

提问："What is the most fun thing to do in San Francisco based on my context? Don't give information outside the document"

期待模型输出的正确答案：

The best thing to do in San Francisco is eat a sandwich and sit in Dolores Park on a sunny day.

Kimi 的工程师同样使用这种方式对 Kimi 的长文本能力进行了压力测试，有兴趣的小伙伴可以了解一下具体测试内容：https://mp.weixin.qq.com/s/IC5-FGLVHzHHYqH6x-aNng

Kimi提出的支持200万字无损上下文能力，这份能力如果可以稳定扎实的实现阅读总结归纳，意味着可以同步读取完上百份文档，我们可以批量对它进行“教学”，将你需要学习的模块内的相关书籍发送给它，让它帮你总结规划，迅速完成任何一个行业的基础入门教学。

1.3国内联网搜索

作为国内的大语言模型，Kimi 的联网搜索功能，可以轻松搜索到国内平台的新闻和文章，附便于提取使用，在针对国内市场的工作任务环境，会有较好效果。

联网搜索的范围较广，除新闻网站外，还会收集一些专业领域网站，并且会对搜索内容进行提炼，降低用户的搜索成本。

同时在体验过程中发现，Kimi有一个很适合新手用户的使用的点，其在提问过程中，每次回答后会在答案下方衍生出三个相关的问题给你，对于不擅长提问的小白玩家来说会有很好的启发性。

目前在市面上没有公开的详细比较研究 Kimi 与 ChatGPT 的计算能力差异的相关文献，所以我们做一些简单的题目测试来初步观察一下 ChatGPT 和 Kimi 在计算逻辑方面的差异性。

2.1数学题

首先选择了比较简单的小学算术题进行测试，挑选了三个简单的算术问题进行询问，进行了三轮问题提示 ChatGPT 和 Kimi 的答案都是没有问题的。

提升难度进行了复杂一些的算术测试，分别进行了一轮乘法和一轮除法运算。

在这一轮使用中，双方呈现出了差异性，在数学题目的运算上经过几轮测试得出结论。

在计算方面，ChatGPT 4 的准确度更高。

Kimi 目前的计算能力相对较弱，在给出答案时询问是否准确的时候会多次重新计算出错误答案，或者二次校验答案同第一次相同的情况下（答案正确），也称自己第一次计算错误，而 GPT 在二次询问过程里，二次计算结果相同情况下，会直接反馈第一次的计算是正确的。

2.2推理题

最后测试了两个推理题目。

题目一的方向主要是基于文本语义的衍生判断答案，选自行测题库。

题目一双方的回答都没有问题，Kimi的反应速度相较更迅速，对于中文的理解速度更快，当然也不排除作为国内的大语言模型本身有这方面的数据内容。

题目二为逻辑推理题，选择了一些程序和银行工作面试中容易出现的题目

题目二涉及到了计算任务，在答案上双方的出现了差异，从第二题的结果来看，ChatGPT 提供的答案准确度更高，同样在推理题上，二次询问 Kimi 也会出现以下问题：同第一次答案相同，但是表示第一次是错误的。

通过这几轮的测试可以看出，在逻辑计算方面，目前 ChatGPT 4 的表现更优，Kimi相对弱势。

目前AI对话式工具在学习工作中被广泛运用到了论文撰写，工作总结，脚本撰写等领域，作为普通工作用户，对于AI的文字编辑能力很重视，经过对身边一些人的使用环境进行了解后，下面会通过三个案例来了解 ChatGPT 和 Kimi 在文字编辑能力上的差异，以下是选择的三个维度。

1️⃣工作往来邮件

2️⃣视频脚本撰写

3️⃣段落润色

3.1工作往来邮件

以下以一个给客户发送感谢邮件为案例的方式，来考察 ChatGPT 和 Kimi 在文字编辑上能力的差异，为了方便对比，在 Prompt 的设计上都没有做太多限制，仅表达了比较简单的内容。

ChatGPT 和 Kimi 在语言理解和撰写上都没有太大问题，但是 GPT 作为海外的软件，整体邮件更带有“译文”的感觉，中文阅读上较为不通畅，相较下 Kimi 作为国内的软件，在中文的撰写上表达更加清晰。

3.2视频脚本撰写

在视频脚本的 Prompt 撰写上，为了能够看出 ChatGPT 和 Kimi 的理解差异性，去掉了对于表格内容的限制，让它们自己根据情况生成。

单纯从模板来看，ChatGPT提供了每个分镜对应的时间，整体时间轴更清晰，脚本内容更“正经”，整体更像企业风的推广视频，Kimi 整体故事性较强，提议了人物的A,B角色，更有利于脑海中构建场景，在语言的描述上对于中文的支持性较好，整体更通顺，甚至设定了“沟通无界，连接你我”的口号，很符合中文使用环境。

3.3段落润色

在段落润色修改上，使用了测评文和新闻稿两个角度，针对同一段文字，让 ChatGPT 和 Kimi 进行了回答。