周一早上,运营同事拿着数据冲进会议室,说注册页转化太低,得想办法提升。视觉设计师第一反应是:“按钮太寡淡了,换成品牌红,再加一点渐变,高级感和冲击力都会强很多。”产品经理不买账,认为问题出在文案:“写成『立即领取权益』才有人愿意点,现在这句太中性。”老板听完,习惯性地总结:“那就都改吧。Banner 顺便换一张更热闹的,表单字段也砍两项,看着干净点。”
团队加班赶出新版本,上线几周后去看数据,发现转化率有一点变化,却没人说得清:大家心里其实都在想同一个问题:到底是哪一处改动起作用了?
是按钮变红更显眼?还是文案更诱人?还是字段变少让填写更轻松?又或者,根本是因为这段时间做了活动、买了广告,和页面改版关系不大?
下一次再遇到类似问题,讨论又回到那几句熟悉的话——“我觉得这个更好看”“我觉得用户会更喜欢那个”,然后再来一轮“谁嗓门大谁赢”。
A/B 测试想解决的,就是这种“吵得很激烈,但谁也说不清”的状态。它不替你做审美判断,也不会告诉你什么是“艺术”,它做的是一件更朴素的事:当我们已经有几个看起来都说得过去的方案时, 让真实用户在真实环境里,用他们的行为数据投一个票。
二、A/B 测试在做什么
如果只用一句话来解释,A/B 测试就是:在真实产品里,把一部分用户随机分配去使用版本 A,另一部分使用版本 B,然后用同一套业务指标比较两个版本的表现差异。
你可以把 A/B 测试,想象成一间咖啡馆在悄悄做的「盲测活动」。这家店准备上新配方的拿铁,但老板有点纠结:是保持现在的味道,把牛奶打得更绵密一点,还是把咖啡浓度调高,让风味更厚一点?光靠自己和员工试喝,总觉得太主观,大家又混在同一个环境里,很容易互相影响。
于是老板决定做一个小实验。接下来一周,所有点拿铁的客人,都会被随机分成两种杯子:有的人拿到的是现在的老配方,我们叫它 A 杯;有的人拿到的是稍微调整过的新配方,我们叫它 B 杯。
客人并不知道自己拿的是哪一杯,只知道“这是今天店里的拿铁”;他们像往常一样坐下来聊天、刷手机、干活,有的喝得干干净净,有的只喝了一半就走了。老板也不会跑过去问:“请问您今天拿到的是 A 杯还是 B 杯,喝完感觉如何?”
对客人来说,一切都和往常一样,只不过今天这杯拿铁味道略有不同。对老板来说,店里其实在悄悄做一场「对照实验」:同样是周二的中午,同样的客群,同样的音乐和座位,唯一不同的是杯子里的配方——一部分人喝 A 杯,一部分人喝 B 杯。
一周结束,老板开始翻看记录:哪一周里“整杯喝完、甚至再加一杯”的比例更高?哪一周里“喝了一半就剩下”的杯子更多?
如果 B 杯那一周,客人更容易喝光、加单,甚至在点评里夸“最近的拿铁更好喝了”,那老板就有理由相信:这次配方的调整,不只是自己觉得好,而是真实客人,在真实场景里,用行为给出的选择。A/B 测试做的事情,和这间咖啡馆其实一模一样:你不是在实验室里端着两杯样品,问路人“你更喜欢哪一个”;而是在真实的使用环境里,悄悄让一部分人看到「老配方」,一部分人看到「新配方」,然后看他们有没有更愿意“喝完”、更愿意“再来一杯”。这里有两个核心点:
第一,是在真实环境里做实验。
老板没有把客人叫到一个单独的小房间,让他们对着两杯编号样品打分,而是让所有事情照常发生:有人赶稿、有人聊天、有人松松散散地刷手机。只是今天端上来的拿铁,悄悄分成了 A 配方和 B 配方。对于我们做产品也是一样:A/B 测试不是把几位受访者请进可用性实验室,当面问“你更喜欢哪个界面”,而是在用户真正会用到产品的场景——地铁、床上、办公室——让他们自然地浏览、点击、下单,只不过你在后台悄悄安排了一部分人看到 A 版,一部分人看到 B 版。
第二,是对照实验的思路。
咖啡馆不会同时换掉杯子、音乐、座位和点单方式,只改了你真正关心的那件事:杯子里配方的比例。除了这一个变量,两周里的天气、客群、菜单、价格都尽量保持一致。这样当你发现“B 配方那一周整杯喝光的更多”时,才有理由把差异更多地归因为配方本身,而不是别的东西在搅局。落回界面设计,思路也是一样:尽量让 A 和 B 在绝大部分地方保持一致,只在某一个你想验证的元素上做变化——一行按钮文案、一句说明文字、一种表单拆分方式。这样,等结果出来时,你才能把“多出来的那一点点击和转化”扎实地绑回这一个改动,而不是陷入“我们同时改了十件事,谁起作用谁背锅都说不清”的局面。
三、A/B 与拍脑袋之别
看上去,A/B 测试和普通改版做的是同一件事:把旧版本换成一个看起来更好的版本。真正的差别藏在下面这些细节里。
第一,它要求你控制变量。
日常改版很容易“一口气把所有不顺眼的地方都改一改”,版式、色彩、插画、文案一起上,改完确实爽。但这样做的后果是:
- 如果数据变好了,你不知道是哪一个改动功劳最大;
- 如果数据变差了,你也不知道该先撤回哪一部分。
A/B 则逼你做一件看似“无聊”的事:一次只动一个关键因素。你可以先只测试按钮文案,再只测试颜色,再测试辅助说明,而不是在一次实验里全部打包。这样,每一次变化都有明确的“问题—假设—改动—结果”链条,便于沉淀经验。
第二,它通过随机分流来抵消外部干扰。
如果你只是简单地“全量上线新版本”,然后比较上线前后的指标,现实中的干扰因素太多:季节性波动、节假日、营销活动、渠道投放、甚至某几天突然涌来的异常流量,都足以让你的“前后对比”失真。
A/B 通过同一时间段、同一用户池,随机把人分到 A 和 B,让环境对两组人来说尽量相同:同样的节假日,同样的活动,同样的社会背景。剩下那一点稳定的差异,才更有可能来自你刻意做的改动本身。
第三,它更接近回答“如果我这样做,会不会产生那样的结果”这种因果问题。
简单的数据分析可以告诉你相关性,比如“下单次数多的用户也更爱收藏”;但你不能倒过来说“只要让他们多点收藏,就会自动多下单”。A/B 通过刻意改变一个变量,再观察行为和结果的变化,让你稍微靠近一点“因果推断”:如果我们把收藏按钮从菜单里挪到卡片上,收藏行为会不会真的变多?如果我们在结账页增加一行说明“支持 7 天无理由退货”,取消率会不会降低?
这不等于说 A/B 是完美的科学实验,但它比“改完以后看看感觉”多了一层扎实的逻辑。
四、为什么设计师需要懂 A/B
你可能会想:“这听着更像 PM 和数据的活,我懂不懂真的重要吗?”
如果你的角色只是“别人让你出 A、B 两版图,你就出两个”,确实不太重要。但你要的是这个位置吗?
当设计师不懂实验思维时,他在评审会上能说的话通常是这样的:“这个排版更有呼吸感”“这个按钮更符合品牌气质”。这些话在设计圈完全成立,但一旦走进对数据敏感的会议室,就显得有点无力。
一旦你理解 A/B,你就能换一种方式发言:
你可以先用用户研究解释“我们发现用户在这里停顿的原因”,再用假设说明“所以我认为改变这里的文案/样式,会让他们更敢点下去”,最后用实验结果告诉大家“在为期两周的测试里,这个方案把完成率提升了多少,没有让退款率、投诉率变糟”。这时候,你的设计不再只是“好看不好看”的问题,而是一个有明确假设、明确收益和明确风险的改善提案。
从团队分工的角度看,一个懂一点 A/B 的设计师,会自然站到更靠前的位置。他不会只是等 PM 写完需求再画稿,而是参与从“发现问题—提出假设—设计变体—读实验结果—提下一个方案”的整条链路。PM 在讨论下一个实验时,他能提出更有质量的设计问题;数据同学在讲指标时,他能听懂在说什么,并且把指标准确地映射回用户行为;开发在抱怨实验埋点复杂时,他能从交互流程角度帮忙简化事件定义。久而久之,别人看你的方式也会变——从“视觉资源”变成“体验和实验的共同 owner”。
五、A/B 适用与禁区
不是所有设计困惑都要拉一场实验来解决。把 A/B 用在对的场景,比“什么都测一测”有效得多。
最典型、最适合的,是那些有清晰关键动作的节点。比如,一个 CTA 按钮到底写“立即购买”还是“加入购物车”;首页主 Banner 到底露出一个促销活动,还是一条教学入口;注册表单是把所有字段堆在一页里,还是拆成两步显示。它们有一个共同点:只要你定义好“用户完成了哪一步,就算成功”,就能通过埋点稳定记录下来,最后算成数字。
再往前一步,你还要看流量的体量。如果是一个每天有几万次访问的首页入口,做一次针对标题和图片的 A/B,可以很快积累到足够样本;如果是一个一个月才几百访问的小设置页,就算你硬着头皮跑实验,几个月过去也未必有结论。在这种地方,先用可用性测试和专家评审找方向,往往比坚持跑一个“永远不显著”的实验更划算。
相反,有一些问题天生就不适合直接上 A/B。比如,你打算对产品的信息架构动一场大手术,从导航到底部菜单全部重排。这样的改动牵涉面太大,很难用“一次只改一个变量”的方式干净地拆开,每一处都在影响数据,这时更适合用任务测试、树测试、开放卡片分类来先把整体结构理顺,再考虑局部的实验。再比如,产品处在非常早期,连核心用户是谁、真正的使用场景是什么都不太清楚,这时你需要的是去“听用户怎么说”“看用户怎么用”,而不是在按钮颜色上计较 0.2% 的转化差异。
一个简单的自查方式是,在你准备对 PM 说“我们做个 A/B 吧”之前,先问问自己几件事:
这一次,我能用一句话说清楚想改变的用户行为吗?这个行为在技术上能被稳定记录下来吗?相关页面的访问量大概有多少,多久能凑够样本?如果这个实验失败,业务能否承受?有没有比 A/B 成本更低、反馈更快的方法,比如先做一轮可用性测试?
如果这些问题你都能顺着回答下去,大概说明已经到了 A/B 出场的时候;如果回答得磕磕绊绊,可能还需要先回到研究和需求澄清阶段,再往后走一步。
六、A/B 与研究分工
在很多“崇尚数据”的团队里,还有一个常见误解:既然 A/B 能告诉我们哪个版本转化更高,是不是可用性测试、访谈、情境调查这些“慢方法”就可以少做一点?
这里必须把话说清楚:A/B 测试非常重要,但它只擅长做一件很窄的事。
它擅长告诉你,“在这两三个具体版本之间,哪个在真实环境里的表现更好”;而它不擅长告诉你,“用户到底在哪一步困惑,他们以为自己在做什么,他们害怕什么,又期待什么”。
可用性测试能让你看到用户在执行任务时卡在哪里,会在哪个字段停顿很久,会怎么犹豫地来回切换;访谈能让你听到他们原本的生活情境,他们是怎么理解“注册”“开通服务”“绑定银行卡”这些看似简单的词;情境调查则把人放回他们真正使用产品的场景,帮你看到他们在怎样的干扰和压力之下打开你的界面。这些方法一起,构成了你对“为什么会这样”的理解。
而 A/B 更像是在这个理解之上,做一次“量化验证”:既然我们推断问题出在这里,那如果按这个方向调整,真实世界里的指标会不会变好?
一个健康的设计决策流程,应该是:先通过定性研究找到可能的方向,再通过 A/B 类的定量实验来验证和量化效果。不是拿 A/B 去替代用户研究,而是让它们互相成就:研究给你灵感和假设,实验帮你确认哪些假设值得继续投资源。
七、最后
这一篇作为 A/B 系列的第一课,更像是在帮你“换一副眼镜”,暂时不急着讲公式、样本量和统计显著性。到这里,你只需要记住几件事:
第一,A/B 测试本质上是一种在线随机对照实验。它在真实环境中比较两个版本的表现,用同样的指标判断谁更好,而不是靠谁声音大谁赢。
第二,设计师理解 A/B,并不是要自己去写检验代码,而是为了把“我觉得这样更好看”升级成“基于这一类用户观察,我有这样的假设,希望通过这样一个改动,让这个行为更容易发生,我们可以用这套指标来验证”。
第三,不是所有问题都要丢给 A/B。对那些有清晰行为、有足够流量、改动相对局部的节点,A/B 是很好的工具;对整体架构、大方向探索、小流量角落,先把用户研究和任务分析做好,可能更重要。
最后,也是最关键的一点:A/B 测试永远不会替代可用性测试、访谈、情境调查这些方法,它只是帮你在“几个看上去都挺合理”的方案之间,用真实数据做一个更有底气的选择。
在下一篇里,我们就从“观念课”走向“实操课”,专门讨论一件事情:怎样从用户观察中整理出一个清晰的实验假设,怎样把这个假设翻译成具体的版本 A 和版本 B,设计师在这个过程中应该交付哪些东西,以及要提前和 PM、数据、开发对齐哪些细节。那会是一堂真正教你“如何自己搭一场 A/B” 的课。