可用性测试 | 测试度量方法 (文末福利)

当前位置:首页>设计文章>UI>可用性测试 | 测试度量方法 (文末福利)
可用性测试 | 测试度量方法 (文末福利)
  • 01 将用户表现转化为定量数据
  • 02 使用标准化量表
  • 03 制定优先级标准

可用性测试 | 测试度量方法 (文末福利)
  • 任务完成率
可记录完成任务的用户数,从而得出任务完成率。
一般性任务的完成条件比较明晰,但也可以给部分任务定义成功标准,比如增加事件限制等
可用性测试 | 测试度量方法 (文末福利)
EXAMPLE

_
用户1

用户2

用户3

用户4

用户5

完成率

任务1

1

1

0

1

1

80%

任务2

1

0

1

0

1

80%

  • 任务完成时间
任务时间即用户花费在一个任务上的时间,以往我们一般以均值的方式报告。可以配合任务完成率一起用
对于小样本量(样本量小于25),计算均值使用几何平均值最佳,比中位数和平均值有更少的错误和偏差
可用性测试 | 测试度量方法 (文末福利)
EXAMPLE

_
用户1

用户2

用户3

用户4

用户5

几何

平均值

任务1

198s

220s

136s

162s

143s

168.85s

  • 其他评估指标

1)评估有效性

- 任务完成率

- 错误数

- 需要帮助的次数

2)评估效率

- 任务完成时间

- 点击次数

3)评估满意度

- 皱眉,身体语言等

- 表达积极性/消极评价的频次

- 满意度量表(如:SUS量表)

可用性测试 | 测试度量方法 (文末福利)

使用标准化问卷测量用户的主观满意度,推荐使用 (SUS System Usability Scale)软件可用性量表,适用于小样本量的场景。量表内容如下:

可用性测试 | 测试度量方法 (文末福利)
  • SUS分数计算方法

1)分值转化:

奇数项(正面描述题),分值转化=原始分-1

偶数项(反面描述题),分值转化=5-原始分

2)SUS量表总分=所有转化后的得分相加X2.5(乘2.5之后变为百分值)

(ps:文末可获取自动统计工具,

可用性测试 | 测试度量方法 (文末福利)

就不用自己计算啦)

  • 注意事项:

1)在使用产品之后填写

2)如果用户因为某些原因无法完成某个题目,那就视为用户在该题上选择了中间值

3)不要更改用词,但‘系统’这个词除外,“系统”替换成“网站、产品”或产品自身的名字等,对最后的分值没有影响

4)不收费,但任何公开出版的报告要对这个方法的来源致谢

5)10为易学性,信度系数0.7;1、2、3、5、6、7、8、9为可用性,信度系数0.91。所以也可以变为简版,去掉4,10

  • SUS分数可以用来做什么?

1)用于评级

对应下图,可得出字母等级评级、描述性评级和可接受范围与SUS分数之间的关系,可助于向非专业人士解释SUS分数的结果

可用性测试 | 测试度量方法 (文末福利)
字母等级:A级: ≥90分 ;B级: ≥80分;C级: ≥70分;D级: ≥60分;F级: <60分

描述性评级:完美(Best Imaginable): 100分;优秀(Excellent): 85-99分;良好(Good): 73-84分;合格(OK):52-72分; 差劲(Poor): 39-51分;糟糕透了(Worst Imaginable): 39分以下

可接受范围:可以接受(Acceptable): 70分以上;中立(Marginal): 50-70分;不可以接受(Not Acceptable): 50分以下

2)百分制等级
除此之外,也可以将SUS分数换算成百分等级来解释,百分等级的意思是指测量的产品或系统相对于总数据库里其他产品或系统的可用性程度。比如SUS得分是73分,其百分等级大约为67,意味着比大约66%的产品可用性更好
可用性测试 | 测试度量方法 (文末福利)
SUS分数的曲线分级范围

SUV分数等级

评级

百分等级

80.8-84

A

96-100

80.8-84

A

90-95

78.9-80.7

A-

85-89

77.2-78.8

B+

80-84

74.1-77.1

B

70-79

72.6-74

B-

65-69

71.1-72.5

C+

60-64

65-71

C

41-59

62.7-64.9

C-

35-40

51.7-62.6

D

15-34

0-51.7

F

0-14

*这个表格是Jeff Sauro(2011)通过446个研究,超过5000个用户的SUS反馈的数据库。这个基准数据也可以由内部团队制定。
可用性测试 | 测试度量方法 (文末福利)

量化过程可分为三步:

1. 问题严重性评定

2. 问题发生频率评定

3. 计算优先级

  • 问题严重性评定:
列出测试中出现的问题,并分别打分——4分制,评定标准见下表(例:用户在某页找不到某功能的入口,这个问题导致了一个严重的挫折,严重性分值为3分)
可用性测试 | 测试度量方法 (文末福利)
问题严重性评定表

严重程度评定标准

分值

这个问题是否妨碍任务完成:

1.用户放弃了任务

2.使用户产生了消极情绪

3.用户尝试5次及以上才完成

4.用户尝试10秒及以上才完成

4

这个问题是否导致了一个严重的延迟或挫折:

1.用户尝试了3-4次才完成

2.用户尝试了5-9秒才完成

3

这个问题对任务绩效的影响是否相当小

2

这个问题是否属于建议

1

*当多个用户表现得不一致时,若程度分最高的比例大于等于25%则按最高分计算,小于25%则按低级的分数计算。(例:某问题在2/5用户上体现为4分,在2/5用户上体现为2分,那就按4分算;如果在1/5用户上体现为4分,在2/5用户上体现为2分,那就按2分算)

  • 问题发生频率评定:
评估每个问题在总样本中发生了几次——4分制,评定标准见下表
可用性测试 | 测试度量方法 (文末福利)
问题发生频率评定表

频率程度评定标准

分值

≥80%

4

50%~79%

3

21%~49%

2

≤20%

1

统计表格格式参考:
可用性测试 | 测试度量方法 (文末福利)
  • 优先级评分计算:
优先级分数=严重程度分+频率程度分
故最高8分,最低2分
可用性测试 | 测试度量方法 (文末福利)
优先级评定表

_
影响程度评分

频率程度评分

优先级评分

问题1

4

3

7

问题2

3

2

5

问题3

2

2

4

问题4

1

2

3

当然,文中介绍的是一种处理思路,大家可适当调整测试标准,使其更适用于实际情况。如进行加权处理,或是增加新的评定指标~

通过这些方法,可以将我们观察到的用户表现,转成量化的数据,使测试结果更加直观、具有说服力。快来试试

可用性测试 | 测试度量方法 (文末福利)

作者|皮皮 编辑楠楠 封面Jace


/ 本期福利 /

在本公众号后台回复 统计工具

即可获得 测试量表自动统计工具
↓↓↓
可用性测试 | 测试度量方法 (文末福利)

可用性测试 | 测试度量方法 (文末福利)
Hi,我们是网易互娱ASAK设计团队

AstroxAkira

后续将定期分享优质设计内容和团队最新资讯

请点击关注了解更多信息
可用性测试 | 测试度量方法 (文末福利)
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。

给TA打赏
共{{data.count}}人
人已打赏
UI效率工具设计干货

可用性测试|快速入门篇

2023-7-31 20:14:12

其他资讯效率工具设计干货

周杰伦「最伟大的作品」是否会成为你的艺术启蒙?

2023-7-31 20:14:26

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索