这些大模型产品几乎都套上了chat的产品外壳,从而传达“拟人”的自然语言(NLP)能力。
与大众用户而言,chat类产品无处不在,生活里有微信、工作里有钉钉。我们对chat的模式实在太熟悉了,一点点细微的差异体验都会被感知和放大。这一点,在我接手AI+chat产品的设计之后,感触颇深。虽然同是chat,各大模型产品也有着自己的“小心思”。
今天咱们就抛开大模型能力本身,聊一聊各厂APP交互的差异和背后的一些思考。
01
直接发送vs填入后发送
ChatGPT和豆包都选用了点击直接发送的交互,而文库的AI助手选择的是模板化填入输入框的方式,如作文模版:我想写一遍作文,标题为________
这两种方式,该如何选择呐?我的建议是,两个都要。
回归引导本身,是为让用户快速了解和上手一个新产品/新功能,先告知能做什么(建立功能认知),再解决怎么做(降低操作成本)。
有效的功能认知不是简单的告诉用户我有什么,而是让用户体验到你的核心价值。比如美颜相机刚出现时(大众还没有认知),核心价值就是滤镜磨皮瘦脸,最好的方式是在相机页实时美化,而不应该是拍完后再美化。
对于大模型产品而言,核心价值当然是内容。有效的功能认知自然是最快让用户体验到回复的内容,点击后直接发送就是最好的方案。
而在用户有了一定认知之后,更重要的就是解决怎么做的问题。对于chat大模型而言,难点不在于操作,而在于“咒语”,也就是聊天内容和格式。模版式的引导就很好的解决了这一点。
最后总结下就是:新用户建功能认知,老用户探索和提效。以上两点,百度搜索AI助手上有非常好的体现。
02
强制单轮对话
在大模型输入中,有一个绕不开的问题,就是强制单轮输入。比如ChatGPT、文心一言都是输入后且回复中,用一个⏹按钮替换了发送按钮,这时候虽然可以继续填入文字,但发送不了,等回复完成⏹才会重新变为发送。
为什么这样,这里其实有一个技术背景。
大模型的多轮对话能力是通过两个主要的技术实现的——上下文编码和动态记忆机制。以chatGPT为例:
总之,通过上述两个技术的结合,ChatGPT 能够在对话过程中不断更新上下文信息和动态记忆,并且能够将这些信息引入到生成器中,从而产生更加连贯和自然的对话。同时,ChatGPT 还能够学习到对话的规律和模式,从而更好地理解和回答用户的问题。
一问一答的形式逻辑更加清晰,非常有利于机器学习和生成回答,否则就会出现下列答非所问的情况:
03
1、发送后键盘保持vs收起
ChatGPT和豆包在输入后键盘是不会收起的,这个更贴近我们日常使用的chat产品,而文心一言则是每发完一条,键盘就会自动收起。
豆包正如其名,定位是一个非常拟人化的“AI朋友”,在对话上也更贴近真实社交的特性——短文本&多轮次,从交互形式上讲,键盘上方的空间足以支持最近上下文的展示,且为了让输入更便捷,键盘不用每次都收起;
而文心一言,百度给他的定位是“超级生产力工具”,这一点李彦宏在发布会上有讲到,优势在于文学创作、商业文案创作等领域,无异于都是长文本&低频次的场景,键盘收起则能给到内容足够的展示空间,保证了更好的浏览体验;
至于ChatGPT,从名字上看可能是想更贴近chat场景,但是目前国内使用场景来看,俨然还是“生产力工具”,这也导致了移动端的浏览体验上欠佳;
小结一下:如果你的产品定位为偏生活化的“AI朋友”,用户使用场景上更多为短文本&多轮次,则保持键盘不收起;如果定位为“生产力工具”,多为长文本&低频次场景,则可以选择发送后收起键盘;
2、输出卡片样式通卡vs半卡
文心一言和ChatGPT都采用了通卡,而豆包则是更贴近日常chat的半卡。
通卡的好处就是内容展示效率更高,适合长文本;半卡则更贴近日常聊天APP的体验。这一点也印证了上文对于产品定位的分析。
3、输出过程中展示头vs尾
这块也是一个很有趣的小细节。ChatGPT在长文本生成到的屏幕顶部时,则会将卡片固顶,新内容继续向下生成;而文心一言则是以卡片底部为固定基线,向上生成内容,会超出屏幕顶部;
有一点可以肯定——在向上打字生成过程中,是很难进行阅读的。内容从生成到固定的时间,决定了用户的等待时长。同样长度的文本,固顶的方式等待时长更短。
04
识别文字vs直接语音vs语音转文字
由于微信、QQ强大的用户基数,只要谈到chat的语音功能,大家的预期应该都是直接“按着说话”以及“松手发送”,内容也一定是语音。
但是在大模型的产品中,三家都有自己的处理方式。
ChatGP是通过文字识别后填入输入框的方式;豆包则是语音输入直接转为文字,但界面形式更像微信;文心一言则更类似siri、小度这样的语音助手,差别是输出语音读完后会自动拾音,开始下一轮对话。
1、ChatGPT面对的是全球国家,面对的语言更复杂,出于识别准确性上的考虑,所以给到更大的容错方式;
2、因为输出上没有语音,所以输入上也更强调文字的方式;
豆包比较好理解,定位就是拟人化的“AI朋友”,语音方式也参考了有一定用户认知的微信,只是在输出上只采用了文字,这块不是很符合预期。
文心一言同理,定位“生产力工具”,交互形式上也更偏“机器助手”一些。
05
整体来看,各大模型产品功能&交互的差异还是多来自于产品定位。如果我们按复杂度、拟人度两个程度来划分,就会发现他们都落在不同的区域。
虽然大模型都想通过chat的产品形态来体现“自然语言”能力,但是大形态下依然有差异化的表现,背后更多是商业的考量,而设计要做的就是”放大“这些差异化,从而建立差异化的认知和心智。
当然,大模型是一个能力很全面的平台,目前更多是试水阶段,产品定位也会随着和用户的磨合而慢慢清晰,也期待中文大模型百花齐放的那天。