A/B 测试（1）：A/B 测试到底在测什么？

周一早上，运营同事拿着数据冲进会议室，说注册页转化太低，得想办法提升。视觉设计师第一反应是：“按钮太寡淡了，换成品牌红，再加一点渐变，高级感和冲击力都会强很多。”产品经理不买账，认为问题出在文案：“写成『立即领取权益』才有人愿意点，现在这句太中性。”老板听完，习惯性地总结：“那就都改吧。Banner 顺便换一张更热闹的，表单字段也砍两项，看着干净点。”

团队加班赶出新版本，上线几周后去看数据，发现转化率有一点变化，却没人说得清：大家心里其实都在想同一个问题：到底是哪一处改动起作用了？

是按钮变红更显眼？还是文案更诱人？还是字段变少让填写更轻松？又或者，根本是因为这段时间做了活动、买了广告，和页面改版关系不大？

下一次再遇到类似问题，讨论又回到那几句熟悉的话——“我觉得这个更好看”“我觉得用户会更喜欢那个”，然后再来一轮“谁嗓门大谁赢”。

A/B 测试想解决的，就是这种“吵得很激烈，但谁也说不清”的状态。它不替你做审美判断，也不会告诉你什么是“艺术”，它做的是一件更朴素的事：当我们已经有几个看起来都说得过去的方案时，让真实用户在真实环境里，用他们的行为数据投一个票。

二、A/B 测试在做什么

如果只用一句话来解释，A/B 测试就是：在真实产品里，把一部分用户随机分配去使用版本 A，另一部分使用版本 B，然后用同一套业务指标比较两个版本的表现差异。

你可以把 A/B 测试，想象成一间咖啡馆在悄悄做的「盲测活动」。这家店准备上新配方的拿铁，但老板有点纠结：是保持现在的味道，把牛奶打得更绵密一点，还是把咖啡浓度调高，让风味更厚一点？光靠自己和员工试喝，总觉得太主观，大家又混在同一个环境里，很容易互相影响。

于是老板决定做一个小实验。接下来一周，所有点拿铁的客人，都会被随机分成两种杯子：有的人拿到的是现在的老配方，我们叫它 A 杯；有的人拿到的是稍微调整过的新配方，我们叫它 B 杯。

客人并不知道自己拿的是哪一杯，只知道“这是今天店里的拿铁”；他们像往常一样坐下来聊天、刷手机、干活，有的喝得干干净净，有的只喝了一半就走了。老板也不会跑过去问：“请问您今天拿到的是 A 杯还是 B 杯，喝完感觉如何？”

对客人来说，一切都和往常一样，只不过今天这杯拿铁味道略有不同。对老板来说，店里其实在悄悄做一场「对照实验」：同样是周二的中午，同样的客群，同样的音乐和座位，唯一不同的是杯子里的配方——一部分人喝 A 杯，一部分人喝 B 杯。

一周结束，老板开始翻看记录：哪一周里“整杯喝完、甚至再加一杯”的比例更高？哪一周里“喝了一半就剩下”的杯子更多？

如果 B 杯那一周，客人更容易喝光、加单，甚至在点评里夸“最近的拿铁更好喝了”，那老板就有理由相信：这次配方的调整，不只是自己觉得好，而是真实客人，在真实场景里，用行为给出的选择。A/B 测试做的事情，和这间咖啡馆其实一模一样：你不是在实验室里端着两杯样品，问路人“你更喜欢哪一个”；而是在真实的使用环境里，悄悄让一部分人看到「老配方」，一部分人看到「新配方」，然后看他们有没有更愿意“喝完”、更愿意“再来一杯”。这里有两个核心点：

第一，是在真实环境里做实验。

老板没有把客人叫到一个单独的小房间，让他们对着两杯编号样品打分，而是让所有事情照常发生：有人赶稿、有人聊天、有人松松散散地刷手机。只是今天端上来的拿铁，悄悄分成了 A 配方和 B 配方。对于我们做产品也是一样：A/B 测试不是把几位受访者请进可用性实验室，当面问“你更喜欢哪个界面”，而是在用户真正会用到产品的场景——地铁、床上、办公室——让他们自然地浏览、点击、下单，只不过你在后台悄悄安排了一部分人看到 A 版，一部分人看到 B 版。

第二，是对照实验的思路。

咖啡馆不会同时换掉杯子、音乐、座位和点单方式，只改了你真正关心的那件事：杯子里配方的比例。除了这一个变量，两周里的天气、客群、菜单、价格都尽量保持一致。这样当你发现“B 配方那一周整杯喝光的更多”时，才有理由把差异更多地归因为配方本身，而不是别的东西在搅局。落回界面设计，思路也是一样：尽量让 A 和 B 在绝大部分地方保持一致，只在某一个你想验证的元素上做变化——一行按钮文案、一句说明文字、一种表单拆分方式。这样，等结果出来时，你才能把“多出来的那一点点击和转化”扎实地绑回这一个改动，而不是陷入“我们同时改了十件事，谁起作用谁背锅都说不清”的局面。

三、A/B 与拍脑袋之别

看上去，A/B 测试和普通改版做的是同一件事：把旧版本换成一个看起来更好的版本。真正的差别藏在下面这些细节里。

第一，它要求你控制变量。

日常改版很容易“一口气把所有不顺眼的地方都改一改”，版式、色彩、插画、文案一起上，改完确实爽。但这样做的后果是：

如果数据变好了，你不知道是哪一个改动功劳最大；
如果数据变差了，你也不知道该先撤回哪一部分。

A/B 则逼你做一件看似“无聊”的事：一次只动一个关键因素。你可以先只测试按钮文案，再只测试颜色，再测试辅助说明，而不是在一次实验里全部打包。这样，每一次变化都有明确的“问题—假设—改动—结果”链条，便于沉淀经验。

第二，它通过随机分流来抵消外部干扰。

如果你只是简单地“全量上线新版本”，然后比较上线前后的指标，现实中的干扰因素太多：季节性波动、节假日、营销活动、渠道投放、甚至某几天突然涌来的异常流量，都足以让你的“前后对比”失真。

A/B 通过同一时间段、同一用户池，随机把人分到 A 和 B，让环境对两组人来说尽量相同：同样的节假日，同样的活动，同样的社会背景。剩下那一点稳定的差异，才更有可能来自你刻意做的改动本身。

第三，它更接近回答“如果我这样做，会不会产生那样的结果”这种因果问题。

简单的数据分析可以告诉你相关性，比如“下单次数多的用户也更爱收藏”；但你不能倒过来说“只要让他们多点收藏，就会自动多下单”。A/B 通过刻意改变一个变量，再观察行为和结果的变化，让你稍微靠近一点“因果推断”：如果我们把收藏按钮从菜单里挪到卡片上，收藏行为会不会真的变多？如果我们在结账页增加一行说明“支持 7 天无理由退货”，取消率会不会降低？

这不等于说 A/B 是完美的科学实验，但它比“改完以后看看感觉”多了一层扎实的逻辑。

四、为什么设计师需要懂 A/B

你可能会想：“这听着更像 PM 和数据的活，我懂不懂真的重要吗？”

如果你的角色只是“别人让你出 A、B 两版图，你就出两个”，确实不太重要。但你要的是这个位置吗？

当设计师不懂实验思维时，他在评审会上能说的话通常是这样的：“这个排版更有呼吸感”“这个按钮更符合品牌气质”。这些话在设计圈完全成立，但一旦走进对数据敏感的会议室，就显得有点无力。

一旦你理解 A/B，你就能换一种方式发言：

你可以先用用户研究解释“我们发现用户在这里停顿的原因”，再用假设说明“所以我认为改变这里的文案/样式，会让他们更敢点下去”，最后用实验结果告诉大家“在为期两周的测试里，这个方案把完成率提升了多少，没有让退款率、投诉率变糟”。这时候，你的设计不再只是“好看不好看”的问题，而是一个有明确假设、明确收益和明确风险的改善提案。

从团队分工的角度看，一个懂一点 A/B 的设计师，会自然站到更靠前的位置。他不会只是等 PM 写完需求再画稿，而是参与从“发现问题—提出假设—设计变体—读实验结果—提下一个方案”的整条链路。PM 在讨论下一个实验时，他能提出更有质量的设计问题；数据同学在讲指标时，他能听懂在说什么，并且把指标准确地映射回用户行为；开发在抱怨实验埋点复杂时，他能从交互流程角度帮忙简化事件定义。久而久之，别人看你的方式也会变——从“视觉资源”变成“体验和实验的共同 owner”。

五、A/B 适用与禁区

不是所有设计困惑都要拉一场实验来解决。把 A/B 用在对的场景，比“什么都测一测”有效得多。

最典型、最适合的，是那些有清晰关键动作的节点。比如，一个 CTA 按钮到底写“立即购买”还是“加入购物车”；首页主 Banner 到底露出一个促销活动，还是一条教学入口；注册表单是把所有字段堆在一页里，还是拆成两步显示。它们有一个共同点：只要你定义好“用户完成了哪一步，就算成功”，就能通过埋点稳定记录下来，最后算成数字。

再往前一步，你还要看流量的体量。如果是一个每天有几万次访问的首页入口，做一次针对标题和图片的 A/B，可以很快积累到足够样本；如果是一个一个月才几百访问的小设置页，就算你硬着头皮跑实验，几个月过去也未必有结论。在这种地方，先用可用性测试和专家评审找方向，往往比坚持跑一个“永远不显著”的实验更划算。

相反，有一些问题天生就不适合直接上 A/B。比如，你打算对产品的信息架构动一场大手术，从导航到底部菜单全部重排。这样的改动牵涉面太大，很难用“一次只改一个变量”的方式干净地拆开，每一处都在影响数据，这时更适合用任务测试、树测试、开放卡片分类来先把整体结构理顺，再考虑局部的实验。再比如，产品处在非常早期，连核心用户是谁、真正的使用场景是什么都不太清楚，这时你需要的是去“听用户怎么说”“看用户怎么用”，而不是在按钮颜色上计较 0.2% 的转化差异。

一个简单的自查方式是，在你准备对 PM 说“我们做个 A/B 吧”之前，先问问自己几件事：

这一次，我能用一句话说清楚想改变的用户行为吗？这个行为在技术上能被稳定记录下来吗？相关页面的访问量大概有多少，多久能凑够样本？如果这个实验失败，业务能否承受？有没有比 A/B 成本更低、反馈更快的方法，比如先做一轮可用性测试？

如果这些问题你都能顺着回答下去，大概说明已经到了 A/B 出场的时候；如果回答得磕磕绊绊，可能还需要先回到研究和需求澄清阶段，再往后走一步。

六、A/B 与研究分工

在很多“崇尚数据”的团队里，还有一个常见误解：既然 A/B 能告诉我们哪个版本转化更高，是不是可用性测试、访谈、情境调查这些“慢方法”就可以少做一点？

这里必须把话说清楚：A/B 测试非常重要，但它只擅长做一件很窄的事。

它擅长告诉你，“在这两三个具体版本之间，哪个在真实环境里的表现更好”；而它不擅长告诉你，“用户到底在哪一步困惑，他们以为自己在做什么，他们害怕什么，又期待什么”。

可用性测试能让你看到用户在执行任务时卡在哪里，会在哪个字段停顿很久，会怎么犹豫地来回切换；访谈能让你听到他们原本的生活情境，他们是怎么理解“注册”“开通服务”“绑定银行卡”这些看似简单的词；情境调查则把人放回他们真正使用产品的场景，帮你看到他们在怎样的干扰和压力之下打开你的界面。这些方法一起，构成了你对“为什么会这样”的理解。

而 A/B 更像是在这个理解之上，做一次“量化验证”：既然我们推断问题出在这里，那如果按这个方向调整，真实世界里的指标会不会变好？

一个健康的设计决策流程，应该是：先通过定性研究找到可能的方向，再通过 A/B 类的定量实验来验证和量化效果。不是拿 A/B 去替代用户研究，而是让它们互相成就：研究给你灵感和假设，实验帮你确认哪些假设值得继续投资源。

七、最后

这一篇作为 A/B 系列的第一课，更像是在帮你“换一副眼镜”，暂时不急着讲公式、样本量和统计显著性。到这里，你只需要记住几件事：

第一，A/B 测试本质上是一种在线随机对照实验。它在真实环境中比较两个版本的表现，用同样的指标判断谁更好，而不是靠谁声音大谁赢。

第二，设计师理解 A/B，并不是要自己去写检验代码，而是为了把“我觉得这样更好看”升级成“基于这一类用户观察，我有这样的假设，希望通过这样一个改动，让这个行为更容易发生，我们可以用这套指标来验证”。

第三，不是所有问题都要丢给 A/B。对那些有清晰行为、有足够流量、改动相对局部的节点，A/B 是很好的工具；对整体架构、大方向探索、小流量角落，先把用户研究和任务分析做好，可能更重要。

最后，也是最关键的一点：A/B 测试永远不会替代可用性测试、访谈、情境调查这些方法，它只是帮你在“几个看上去都挺合理”的方案之间，用真实数据做一个更有底气的选择。

在下一篇里，我们就从“观念课”走向“实操课”，专门讨论一件事情：怎样从用户观察中整理出一个清晰的实验假设，怎样把这个假设翻译成具体的版本 A 和版本 B，设计师在这个过程中应该交付哪些东西，以及要提前和 PM、数据、开发对齐哪些细节。那会是一堂真正教你“如何自己搭一场 A/B” 的课。