可用性测试｜测试度量方法（文末福利）

UI
23年7月31日
编辑

ASAK

01 将用户表现转化为定量数据

02 使用标准化量表
03 制定优先级标准

任务完成率

可记录完成任务的用户数，从而得出任务完成率。

一般性任务的完成条件比较明晰，但也可以给部分任务定义成功标准，比如增加事件限制等

EXAMPLE

	用户1	用户2	用户3	用户4	用户5	完成率
任务1	1	1	0	1	1	80%
任务2	1	0	1	0	1	80%

任务完成时间

任务时间即用户花费在一个任务上的时间，以往我们一般以均值的方式报告。可以配合任务完成率一起用

对于小样本量（样本量小于25），计算均值使用几何平均值最佳，比中位数和平均值有更少的错误和偏差

EXAMPLE

	用户1	用户2	用户3	用户4	用户5	几何平均值
任务1	198s	220s	136s	162s	143s	168.85s

其他评估指标

1）评估有效性

- 任务完成率

- 错误数

- 需要帮助的次数

2）评估效率

- 任务完成时间

- 点击次数

3）评估满意度

- 皱眉，身体语言等

- 表达积极性/消极评价的频次

- 满意度量表（如：SUS量表）

使用标准化问卷测量用户的主观满意度，推荐使用（SUS System Usability Scale）软件可用性量表，适用于小样本量的场景。量表内容如下：

SUS分数计算方法

1）分值转化：

奇数项（正面描述题），分值转化=原始分-1

偶数项（反面描述题），分值转化=5-原始分

2）SUS量表总分=所有转化后的得分相加X2.5（乘2.5之后变为百分值）

（ps：文末可获取自动统计工具，

就不用自己计算啦）

注意事项：

1）在使用产品之后填写

2）如果用户因为某些原因无法完成某个题目，那就视为用户在该题上选择了中间值

3）不要更改用词，但‘系统’这个词除外，“系统”替换成“网站、产品”或产品自身的名字等，对最后的分值没有影响

4）不收费，但任何公开出版的报告要对这个方法的来源致谢

5）10为易学性，信度系数0.7；1、2、3、5、6、7、8、9为可用性，信度系数0.91。所以也可以变为简版，去掉4，10

SUS分数可以用来做什么？

1）用于评级

对应下图，可得出字母等级评级、描述性评级和可接受范围与SUS分数之间的关系，可助于向非专业人士解释SUS分数的结果

①字母等级：A级: ≥90分；B级: ≥80分；C级: ≥70分；D级: ≥60分；F级: <60分

②描述性评级：完美(Best Imaginable): 100分；优秀(Excellent): 85-99分；良好(Good): 73-84分；合格(OK)：52-72分; 差劲(Poor): 39-51分；糟糕透了(Worst Imaginable): 39分以下

③可接受范围：可以接受(Acceptable): 70分以上；中立(Marginal): 50-70分；不可以接受(Not Acceptable): 50分以下

2）百分制等级

除此之外，也可以将SUS分数换算成百分等级来解释，百分等级的意思是指测量的产品或系统相对于总数据库里其他产品或系统的可用性程度。比如SUS得分是73分，其百分等级大约为67，意味着比大约66%的产品可用性更好

SUS分数的曲线分级范围

SUV分数等级	评级	百分等级
80.8-84	A	96-100
80.8-84	A	90-95
78.9-80.7	A-	85-89
77.2-78.8	B+	80-84
74.1-77.1	B	70-79
72.6-74	B-	65-69
71.1-72.5	C+	60-64
65-71	C	41-59
62.7-64.9	C-	35-40
51.7-62.6	D	15-34
0-51.7	F	0-14

*这个表格是Jeff Sauro（2011）通过446个研究，超过5000个用户的SUS反馈的数据库。这个基准数据也可以由内部团队制定。

量化过程可分为三步：

1. 问题严重性评定

2. 问题发生频率评定

3. 计算优先级

问题严重性评定：

列出测试中出现的问题，并分别打分——4分制，评定标准见下表（例：用户在某页找不到某功能的入口，这个问题导致了一个严重的挫折，严重性分值为3分）

问题严重性评定表

严重程度评定标准	分值
这个问题是否妨碍任务完成： 1.用户放弃了任务 2.使用户产生了消极情绪 3.用户尝试5次及以上才完成 4.用户尝试10秒及以上才完成	4
这个问题是否导致了一个严重的延迟或挫折： 1.用户尝试了3-4次才完成 2.用户尝试了5-9秒才完成	3
这个问题对任务绩效的影响是否相当小	2
这个问题是否属于建议	1