可用性测试(2):开始测试前,如何制定测试计划

2025年11月9日
研学小组
研学小组
美叶研学官方内容开发小组
已累计原创 86 篇文章查看全部

小华是一名设计师,她准备给新改版的注册流程做可用性测试。她行动力很强——当天就开始招人,不一会就招到五个用户,于是她写好了几个任务,约好时间,第二周就把测试做完了。

五场测试记录了三十多条观察:有用户在第二步停了很久,有用户跳过了邮箱验证,有用户把"下一步"看成了"提交",有用户全程顺利但结束后说"不确定注册成没成功"。每一条单独看都像是值得关注的发现,但放在一起看,她分不清哪些是严重的设计缺陷、哪些只是个别用户的操作习惯。她也说不出这次测试到底回答了什么问题——因为她从一开始就没有定义过测试要回答什么。

做了测试、收集了数据,确得不出结论,这里面缺的不是执行,而是在执行之前就应该想清楚"这次测试要回答哪几个问题"。这就是测试正式开始前,测试计划该做的事。

一、测试计划的作用

没有测试计划的测试,数据是混乱的——分析的人不知道哪条观察重要,不知道从哪里下手,不知道做完之后应该对产品做出怎样的判断。有了测试计划,每条观察都有了参照系:比如这条数据和测试目标有没有关系,帮助回答了哪个问题。

测试计划还有另一个价值:让团队其他人知道这次测试在做什么。产品经理、开发、老板——在测试开始前让这些角色看到计划,这里面的好处不止一个。他们可以决定要不要来现场观摩;如果亲眼看到用户卡住,他们对测试结论的接受度会高很多。他们也可以提出自己关心的问题,补充到测试目标里,让测试结论覆盖更多人在意的议题。测试结论能不能推动设计改动,很大程度上取决于关键决策者是否在测试之前就参与了目标的制定——看到自己提过的问题被回答了,他们更愿意接受结论、支持后续行动。


二、确定测试目标

测试目标的来源是产品层面的疑问或风险——某个地方设计师不确定用户能不能顺利通过,某个功能刚改版还没有经过用户验证,某个流程的数据显示出异常的流失。

把这些疑问转化成测试目标,最为关键的一步是:从"我们想知道什么"变成"我们能观察到什么"。举个例子:

产品的疑问是"新手用户能不能顺利完成注册"。这个表述太模糊,无法直接指导任务设计,测试做完后也无法判断这个问题是否已经被回答。

转化成测试目标之后,应该变成:"观察新手用户在不接受任何帮助的情况下,能否在五分钟内独立完成注册并进入主界面,以及在哪些步骤出现了停顿或错误操作。"转化后的表述有了可观察的行为(完成注册)、可记录的参数(五分钟内、不接受帮助)、具体的观察焦点(哪些步骤出现了问题)。

测试目标的数量不要超过三到四个。目标太多意味着任务太多,测试时间拉长,用户的注意力和耐心都会在后半段下降,越到后面的任务数据质量越差。一次测试回答三个清晰的问题,比模糊地覆盖十个问题更有价值。

如果有多个目标,还需要区分哪些是主要目标、哪些是次要目标。主要目标决定任务的设计,必须在任务里有直接对应;次要目标可以在测试过程中附带观察,不专门为它设计任务,但主持人知道如果有相关情况出现,要多留意。


三、选择测试形式

确定了测试目标之后,需要决定用什么形式来做测试。两个主要的选择维度是:有没有主持人陪同,以及在哪里做。

1. 调节式(有主持人陪同)vs 非调节式(用户独立完成)

调节式测试由主持人全程陪同,实时观察用户的操作,可以在任务结束后追问"你刚才停顿了一下,在想什么"这类问题,也可以在用户完全卡住的时候介入。调节式测试能收集到更丰富的信息,尤其是"为什么"——用户不只是卡住了,主持人还可以引导用户说出卡住的原因。

调节式测试适合以下几种情况:

  • 测试目标偏探索性,想理解用户在哪里困惑以及为什么困惑;
  • 产品还在早期原型阶段,流程还不完善,需要主持人来处理各种意外情况;
  • 用户群体比较特殊,比如老年用户,需要主持人在场帮忙解决技术问题。

非调节式测试让用户独立完成,没有主持人陪同,通常借助专门的工具(比如 Maze、UserTesting 等)来录制用户的操作过程。用户在自己熟悉的环境里完成任务,行为更自然;而且可以同时让多个用户参与测试,速度快、规模大。

非调节式测试适合以下几种情况:

  • 测试目标偏验证性,想确认某个具体问题是否存在;
  • 产品已经相对完善,不需要主持人在旁兜底;
  • 需要更大的样本量来增强结论的说服力。

选择建议:探索阶段用调节式,验证阶段可以用非调节式。如果对测试还没有经验,先从调节式开始——它对测试设计的容错率更高,出了问题可以及时调整。

2. 面对面 vs 远程

面对面测试能观察到更多非语言信号——用户的表情、身体语言、对设备的握持方式——这些信息在远程测试里是看不到的。面对面测试适合以下场景:产品涉及实物交互(比如 IoT 设备),需要用户使用自己的真实设备而不是主持人准备的设备,或者用户群体在远程环境下容易分散注意力。

远程测试的优势是招募灵活,可以接触到地理位置分散的用户,而不是只限于本地能约到的人。远程工具(Zoom、腾讯会议配合屏幕共享)的技术门槛已经很低,大多数用户能独立完成连接。远程测试的主要风险是技术问题(网络不稳定、屏幕共享失败)和用户注意力分散(在自己家里做测试,干扰因素多),设计测试方案时需要提前考虑这两点。


四、测试计划文档的基本内容

测试计划不需要写成长篇报告,能在一页以内写清楚就够。核心内容包括:

  1. 测试背景:这次测试是为了回答什么产品问题而做的,它处于产品的什么阶段。这部分让读计划的人快速理解这次测试的来龙去脉。
  2. 测试目标:列出两到四个具体的测试问题,每个问题都要包含可观察的行为和可记录的参数(参照上文"从产品问题出发"一节的转化方式)。
  3. 参与者画像:目标用户是谁,需要哪些特征(使用经验、技术熟悉度、场景特征),排除哪些人(竞品员工、设计从业者)。
  4. 测试形式:调节式还是非调节式,面对面还是远程。
  5. 时间安排:计划做几场,每场多长时间,大致安排在什么时间段。
  6. 工具和材料:需要准备什么原型、用什么设备、用什么录制工具。
  7. 团队分工:谁主持,谁负责记录观察,测试结束后谁负责整理数据。

写完之后,把计划文档发给产品经理和相关开发,在测试正式开始前达成一次共识——让所有人在测试之前就同意"这几个问题的答案,将影响我们下一步的设计决定"。这个提前沟通的动作,比测试结束后写一份说服力十足的报告要省力得多。


五、一个容易被忽视的问题

测试计划里有一个细节,很新手设计师经常想不清楚,那就是测试用的是什么状态的原型或产品。

用纸原型测试和用高保真原型测试,能发现的问题类型不一样。纸原型能测流程是否说得通,但用户的注意力会被"这不是真实产品"这个事实干扰,在细节层面的反应往往不准确。高保真原型能测视觉和交互细节,但如果原型里有很多地方点了没有反应,用户的流程体验就是不完整的,测试结论也会存在盲区。

确定测试在什么版本进行,需要逐条对照测试目标来判断:要回答每一个目标问题,用户需要在什么样的产品状态下才能真实地完成任务。比如目标是验证注册流程,原型至少需要把注册流程的每一步都做完,其他功能可以只是壳子。原型的完成度不需要达到最终交付的标准,但测试路径上的每一步都必须是可操作的。

0 人收藏了本文

焦点小组09:从讨论到设计决策焦点小组09:从讨论到设计决策
焦点小组08:记录与分析篇焦点小组08:记录与分析篇
焦点小组07:主持技巧(下)焦点小组07:主持技巧(下)
焦点小组06:主持技巧(上)焦点小组06:主持技巧(上)
焦点小组05:讨论提纲设计(下)——刺激材料的设计与使用焦点小组05:讨论提纲设计(下)——刺激材料的设计与使用
焦点小组04:讨论提纲设计(上)——结构与问题设计焦点小组04:讨论提纲设计(上)——结构与问题设计
焦点小组03:招募与筛选篇——找对人比问对问题更重要焦点小组03:招募与筛选篇——找对人比问对问题更重要
焦点小组02:研究规划篇——在开始之前把问题想清楚焦点小组02:研究规划篇——在开始之前把问题想清楚