「AI+Chat」差异化设计背后的思考

当前位置:首页>设计文章>AIGC>「AI+Chat」差异化设计背后的思考
5月份OpenAI 发布了iOS版ChatGPT,随后百度和字节也分别推出了自家的大模型产品,文心一言豆包

「AI+Chat」差异化设计背后的思考

这些大模型产品几乎都套上了chat的产品外壳,从而传达“拟人”的自然语言(NLP)能力。

与大众用户而言,chat类产品无处不在,生活里有微信、工作里有钉钉。我们对chat的模式实在太熟悉了,一点点细微的差异体验都会被感知和放大。这一点,在我接手AI+chat产品的设计之后,感触颇深。虽然同是chat,各大模型产品也有着自己的“小心思”。

今天咱们就抛开大模型能力本身,聊一聊各厂APP交互的差异和背后的一些思考。

01

引导

直接发送vs填入后发送

ChatGPT和豆包都选用了点击直接发送的交互,而文库的AI助手选择的是模板化填入输入框的方式,如作文模版:我想写一遍作文,标题为________

「AI+Chat」差异化设计背后的思考

这两种方式,该如何选择呐?我的建议是,两个都要。

回归引导本身,是为让用户快速了解和上手一个新产品/新功能,先告知能做什么(建立功能认知),再解决怎么做(降低操作成本)。

有效的功能认知不是简单的告诉用户我有什么,而是让用户体验到你的核心价值。比如美颜相机刚出现时(大众还没有认知),核心价值就是滤镜磨皮瘦脸,最好的方式是在相机页实时美化,而不应该是拍完后再美化。

对于大模型产品而言,核心价值当然是内容。有效的功能认知自然是最快让用户体验到回复的内容,点击后直接发送就是最好的方案。

而在用户有了一定认知之后,更重要的就是解决怎么做的问题。对于chat大模型而言,难点不在于操作,而在于“咒语”,也就是聊天内容和格式。模版式的引导就很好的解决了这一点。

最后总结下就是:新用户建功能认知,老用户探索和提效。以上两点,百度搜索AI助手上有非常好的体现。

「AI+Chat」差异化设计背后的思考

02

对话机制

强制单轮对话

在大模型输入中,有一个绕不开的问题,就是强制单轮输入比如ChatGPT、文心一言都是输入后且回复中,用一个⏹按钮替换了发送按钮,这时候虽然可以继续填入文字,但发送不了,等回复完成⏹才会重新变为发送。

「AI+Chat」差异化设计背后的思考

为什么这样,这里其实有一个技术背景

大模型的多轮对话能力是通过两个主要的技术实现的——上下文编码和动态记忆机制。以chatGPT为例:

上下文编码:我们每问一句,ChatGPT都会将之前的对话历史作为输入进行处理,这样才让chatGPT能够理解上下文的信息;这也是为什么大模型产品都有个new chat 或清除上下文的功能,其实就是“主动失忆”,清除与上文关联的意思;

「AI+Chat」差异化设计背后的思考

以成语接龙为例子:①②为输入,→为输出

动态记忆机制:考虑到处理速度,这个对话历史必定是有限的,在有限的长度外,每次增加新的就意味着丢掉旧的,即使是AI,可用于对话的记忆也是有限的;GPT-4厉害的地方之一就在于记忆长度是GPT3.5的8倍,约等于23400字,而GPT3.5能记忆的长度才不到3000字;

总之,通过上述两个技术的结合,ChatGPT 能够在对话过程中不断更新上下文信息和动态记忆,并且能够将这些信息引入到生成器中,从而产生更加连贯和自然的对话。同时,ChatGPT 还能够学习到对话的规律和模式,从而更好地理解和回答用户的问题。

一问一答的形式逻辑更加清晰,非常有利于机器学习和生成回答,否则就会出现下列答非所问的情况:

「AI+Chat」差异化设计背后的思考

03

文字输入与输出

1、发送后键盘保持vs收起

ChatGPT和豆包在输入后键盘是不会收起的,这个更贴近我们日常使用的chat产品,而文心一言则是每发完一条,键盘就会自动收起。

「AI+Chat」差异化设计背后的思考
这是一个很小的细节,却映射出一个很大的差异——产品定位

豆包正如其名,定位是一个非常拟人化的“AI朋友”,在对话上也更贴近真实社交的特性——短文本&多轮次,从交互形式上讲,键盘上方的空间足以支持最近上下文的展示,且为了让输入更便捷,键盘不用每次都收起;

而文心一言,百度给他的定位是“超级生产力工具”,这一点李彦宏在发布会上有讲到,优势在于文学创作、商业文案创作等领域,无异于都是长文本&低频次的场景,键盘收起则能给到内容足够的展示空间,保证了更好的浏览体验;

至于ChatGPT,从名字上看可能是想更贴近chat场景,但是目前国内使用场景来看,俨然还是“生产力工具”,这也导致了移动端的浏览体验上欠佳;

小结一下:如果你的产品定位为偏生活化的“AI朋友”,用户使用场景上更多为短文本&多轮次,则保持键盘不收起;如果定位为“生产力工具”,多为长文本&低频次场景,则可以选择发送后收起键盘;

2、输出卡片样式通卡vs半卡

文心一言和ChatGPT都采用了通卡,而豆包则是更贴近日常chat的半卡。

「AI+Chat」差异化设计背后的思考

通卡的好处就是内容展示效率更高,适合长文本;半卡则更贴近日常聊天APP的体验。这一点也印证了上文对于产品定位的分析。

3、输出过程中展示头vs尾

这块也是一个很有趣的小细节。ChatGPT在长文本生成到的屏幕顶部时,则会将卡片固顶,新内容继续向下生成;而文心一言则是以卡片底部为固定基线,向上生成内容,会超出屏幕顶部;

「AI+Chat」差异化设计背后的思考

有一点可以肯定——在向上打字生成过程中,是很难进行阅读的。内容从生成到固定的时间,决定了用户的等待时长。同样长度的文本,固顶的方式等待时长更短

04

语音输入与输出

识别文字vs直接语音vs语音转文字

由于微信、QQ强大的用户基数,只要谈到chat的语音功能,大家的预期应该都是直接“按着说话”以及“松手发送”,内容也一定是语音。

但是在大模型的产品中,三家都有自己的处理方式。

ChatGP是通过文字识别后填入输入框的方式;豆包则是语音输入直接转为文字,但界面形式更像微信;文心一言则更类似siri、小度这样的语音助手,差别是输出语音读完后会自动拾音,开始下一轮对话。

「AI+Chat」差异化设计背后的思考

从交互来讲,语音识别为文字有更好的容错,填入输入框后用户可以有个确认和修改的机会;这一点我的推测是:

1、ChatGPT面对的是全球国家,面对的语言更复杂,出于识别准确性上的考虑,所以给到更大的容错方式;

2、因为输出上没有语音,所以输入上也更强调文字的方式;

豆包比较好理解,定位就是拟人化的“AI朋友”,语音方式也参考了有一定用户认知的微信,只是在输出上只采用了文字,这块不是很符合预期。

文心一言同理,定位“生产力工具”,交互形式上也更偏“机器助手”一些。

05

写在最后

整体来看,各大模型产品功能&交互的差异还是多来自于产品定位。如果我们按复杂度、拟人度两个程度来划分,就会发现他们都落在不同的区域。

「AI+Chat」差异化设计背后的思考

虽然大模型都想通过chat的产品形态来体现“自然语言”能力,但是大形态下依然有差异化的表现,背后更多是商业的考量,而设计要做的就是”放大“这些差异化,从而建立差异化的认知和心智

当然,大模型是一个能力很全面的平台,目前更多是试水阶段,产品定位也会随着和用户的磨合而慢慢清晰,也期待中文大模型百花齐放的那天。

-END-

欢迎添加阿吉私人微信
更多干货分享
「AI+Chat」差异化设计背后的思考
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给TA打赏
共{{data.count}}人
人已打赏
UI交互设计干货

「头图Banner」vs「Feed流」的世纪之争

2023-10-27 11:26:27

AIGC

Stable Diffusion | 断舍离,从清理SD垃圾做起

2023-10-27 17:07:13

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索