小华是一名设计师,她准备给新改版的注册流程做可用性测试。她行动力很强——当天就开始招人,不一会就招到五个用户,于是她写好了几个任务,约好时间,第二周就把测试做完了。
五场测试记录了三十多条观察:有用户在第二步停了很久,有用户跳过了邮箱验证,有用户把"下一步"看成了"提交",有用户全程顺利但结束后说"不确定注册成没成功"。每一条单独看都像是值得关注的发现,但放在一起看,她分不清哪些是严重的设计缺陷、哪些只是个别用户的操作习惯。她也说不出这次测试到底回答了什么问题——因为她从一开始就没有定义过测试要回答什么。
做了测试、收集了数据,确得不出结论,这里面缺的不是执行,而是在执行之前就应该想清楚"这次测试要回答哪几个问题"。这就是测试正式开始前,测试计划该做的事。
一、测试计划的作用
没有测试计划的测试,数据是混乱的——分析的人不知道哪条观察重要,不知道从哪里下手,不知道做完之后应该对产品做出怎样的判断。有了测试计划,每条观察都有了参照系:比如这条数据和测试目标有没有关系,帮助回答了哪个问题。
测试计划还有另一个价值:让团队其他人知道这次测试在做什么。产品经理、开发、老板——在测试开始前让这些角色看到计划,这里面的好处不止一个。他们可以决定要不要来现场观摩;如果亲眼看到用户卡住,他们对测试结论的接受度会高很多。他们也可以提出自己关心的问题,补充到测试目标里,让测试结论覆盖更多人在意的议题。测试结论能不能推动设计改动,很大程度上取决于关键决策者是否在测试之前就参与了目标的制定——看到自己提过的问题被回答了,他们更愿意接受结论、支持后续行动。
二、确定测试目标
测试目标的来源是产品层面的疑问或风险——某个地方设计师不确定用户能不能顺利通过,某个功能刚改版还没有经过用户验证,某个流程的数据显示出异常的流失。
把这些疑问转化成测试目标,最为关键的一步是:从"我们想知道什么"变成"我们能观察到什么"。举个例子:
产品的疑问是"新手用户能不能顺利完成注册"。这个表述太模糊,无法直接指导任务设计,测试做完后也无法判断这个问题是否已经被回答。
转化成测试目标之后,应该变成:"观察新手用户在不接受任何帮助的情况下,能否在五分钟内独立完成注册并进入主界面,以及在哪些步骤出现了停顿或错误操作。"转化后的表述有了可观察的行为(完成注册)、可记录的参数(五分钟内、不接受帮助)、具体的观察焦点(哪些步骤出现了问题)。

测试目标的数量不要超过三到四个。目标太多意味着任务太多,测试时间拉长,用户的注意力和耐心都会在后半段下降,越到后面的任务数据质量越差。一次测试回答三个清晰的问题,比模糊地覆盖十个问题更有价值。
如果有多个目标,还需要区分哪些是主要目标、哪些是次要目标。主要目标决定任务的设计,必须在任务里有直接对应;次要目标可以在测试过程中附带观察,不专门为它设计任务,但主持人知道如果有相关情况出现,要多留意。
三、选择测试形式
确定了测试目标之后,需要决定用什么形式来做测试。两个主要的选择维度是:有没有主持人陪同,以及在哪里做。
1. 调节式(有主持人陪同)vs 非调节式(用户独立完成)
调节式测试由主持人全程陪同,实时观察用户的操作,可以在任务结束后追问"你刚才停顿了一下,在想什么"这类问题,也可以在用户完全卡住的时候介入。调节式测试能收集到更丰富的信息,尤其是"为什么"——用户不只是卡住了,主持人还可以引导用户说出卡住的原因。
调节式测试适合以下几种情况:
- 测试目标偏探索性,想理解用户在哪里困惑以及为什么困惑;
- 产品还在早期原型阶段,流程还不完善,需要主持人来处理各种意外情况;
- 用户群体比较特殊,比如老年用户,需要主持人在场帮忙解决技术问题。
非调节式测试让用户独立完成,没有主持人陪同,通常借助专门的工具(比如 Maze、UserTesting 等)来录制用户的操作过程。用户在自己熟悉的环境里完成任务,行为更自然;而且可以同时让多个用户参与测试,速度快、规模大。
非调节式测试适合以下几种情况:
- 测试目标偏验证性,想确认某个具体问题是否存在;
- 产品已经相对完善,不需要主持人在旁兜底;
- 需要更大的样本量来增强结论的说服力。
选择建议:探索阶段用调节式,验证阶段可以用非调节式。如果对测试还没有经验,先从调节式开始——它对测试设计的容错率更高,出了问题可以及时调整。
2. 面对面 vs 远程
面对面测试能观察到更多非语言信号——用户的表情、身体语言、对设备的握持方式——这些信息在远程测试里是看不到的。面对面测试适合以下场景:产品涉及实物交互(比如 IoT 设备),需要用户使用自己的真实设备而不是主持人准备的设备,或者用户群体在远程环境下容易分散注意力。
远程测试的优势是招募灵活,可以接触到地理位置分散的用户,而不是只限于本地能约到的人。远程工具(Zoom、腾讯会议配合屏幕共享)的技术门槛已经很低,大多数用户能独立完成连接。远程测试的主要风险是技术问题(网络不稳定、屏幕共享失败)和用户注意力分散(在自己家里做测试,干扰因素多),设计测试方案时需要提前考虑这两点。
四、测试计划文档的基本内容
测试计划不需要写成长篇报告,能在一页以内写清楚就够。核心内容包括:
- 测试背景:这次测试是为了回答什么产品问题而做的,它处于产品的什么阶段。这部分让读计划的人快速理解这次测试的来龙去脉。
- 测试目标:列出两到四个具体的测试问题,每个问题都要包含可观察的行为和可记录的参数(参照上文"从产品问题出发"一节的转化方式)。
- 参与者画像:目标用户是谁,需要哪些特征(使用经验、技术熟悉度、场景特征),排除哪些人(竞品员工、设计从业者)。
- 测试形式:调节式还是非调节式,面对面还是远程。
- 时间安排:计划做几场,每场多长时间,大致安排在什么时间段。
- 工具和材料:需要准备什么原型、用什么设备、用什么录制工具。
- 团队分工:谁主持,谁负责记录观察,测试结束后谁负责整理数据。
写完之后,把计划文档发给产品经理和相关开发,在测试正式开始前达成一次共识——让所有人在测试之前就同意"这几个问题的答案,将影响我们下一步的设计决定"。这个提前沟通的动作,比测试结束后写一份说服力十足的报告要省力得多。
五、一个容易被忽视的问题
测试计划里有一个细节,很新手设计师经常想不清楚,那就是测试用的是什么状态的原型或产品。
用纸原型测试和用高保真原型测试,能发现的问题类型不一样。纸原型能测流程是否说得通,但用户的注意力会被"这不是真实产品"这个事实干扰,在细节层面的反应往往不准确。高保真原型能测视觉和交互细节,但如果原型里有很多地方点了没有反应,用户的流程体验就是不完整的,测试结论也会存在盲区。
确定测试在什么版本进行,需要逐条对照测试目标来判断:要回答每一个目标问题,用户需要在什么样的产品状态下才能真实地完成任务。比如目标是验证注册流程,原型至少需要把注册流程的每一步都做完,其他功能可以只是壳子。原型的完成度不需要达到最终交付的标准,但测试路径上的每一步都必须是可操作的。








