图片来源@视觉中国
文 | 深响原创,作者|陈文琦
从勇者为王到精益创业,一代又一代的企业在这个瞬息万变的商业世界中追寻着增长的脉动与规律。大到国外的Google、Netflix、亚马逊,国内的字节跳动、BAT,小到十个人的创业公司、一个人的产品思考,所有人都渴望拨开重重迷雾、锚定真正的增长引擎。
在众多的增长方法中,以数据驱动为核心理念的A/B测试是当下最为炙手可热的尝试之一。为了进一步厘清这一增长方法的来龙去脉、可行性与适用范围、真正价值与常见误区,「深响」在充分的国内外案头研究基础上,访谈到多位一线操盘手,沉淀出当下市场对于A/B测试、数据驱动的主流理解与实际落地应用的情况。
今天为您奉上增长实验室系列第3篇,《一年8万次A/B测试,谁是抖音凶猛的幕后英雄》。
追求极致
怎样让用户看视频的体验更好?
作为支持抖音的数据分析师,苏嘉沐的工作总是在尝试解决这个没有尽头的问题。
疯狂生长的抖音已有超过6亿的日活跃用户,庞大的用户量要求团队对每一个微小细节的改动都异常谨慎。在这个出了名的“用数据说话”的公司,A/B测试像是一道关卡,是产品迅速的更新迭代中,必不可少的一环。
今年年初,抖音的UI设计师提出,或许可以优化文字和视频内容之间的蒙层,让视频界面上的文字更突出,用户刷视频的体验会更舒服,从而停留在App上更久一点。
那么蒙层的高度和透明度如何设置,才能达到预期效果呢?这只有通过A/B测试能知道。确定了优化目标之后,苏嘉沐的团队着手开始设计实验方案,调整蒙层的高度、透明度这两个主要参数,后续交给研发团队做实现,最终分流给不同用户。
“这是一个不断趋近它的局部最优解的过程。”苏嘉沐说。围绕两个变量的组合,团队对小小的蒙层进行了为期半个月的实验。每个方案,不同参数的组合,会需要7天左右的观测时间,来收集用户观看时长、留存等指标。
最终,敲定了最佳方案(下图2),相较原版本,它让人均App使用时长提升了约0.2%,人均App活跃天数提升了约0.1%。
仔细对比左右两图,在标题和视频内容中间的蒙层有细微差别 团队通过A/B测试结果,最终选择了右图方案
类似上面蒙层的例子数不胜数,比如抖音原来的界面设计里,为了简洁美观,以偏符号性的按钮设计为主,类似爱心代表点赞,省略号代表评论。但是在评估用户体验时团队发现,这样的设计对不熟悉产品功能的新用户来说并不友好,他们很少主动使用。通过A/B测试,团队添加了更直观的文字提示去引导用户行为。
A/B测试贯穿了抖音的整个生命周期,从产品命名、功能、交互设计到推荐算法策略,这是字节跳动的基因。
2012年,公司刚成立,掌舵人张一鸣还在自己一行一行地敲代码时,A/B测试就开始了,通过科学、可量化的方法去协助人做产品决策。
“其实A/B测试在某种程度上,使得信息更透明,大家去对话的时候更公平有据。而且对于我们各种各样的协助方来说,能累计对产品的认知,完整理解业务。”苏嘉沐告诉「深响」。
现在,单抖音一个产品,每年会开6-8万次实验。整个公司内部,目前每天约新增1500个实验,服务涵盖广告优化和市场活动等400多项业务,累计已做了70万次实验。说A/B测试是字节跳动创造增长神话的秘密武器,毫不为过。
若没有一个通用的工具,要完成如此量级的A/B测试,近乎不可能的任务。幕后,是字节很早就开始打磨内部的A/B测试平台Libra。
打磨利器
Libra这步棋,字节下的很有前瞻性。
2014年,公司已经开始推动A/B测试的平台化,“让它更严谨,以及发现它的问题,在公司中更广泛地使用”,副总裁杨震原在4月的一次技术开放日的演讲上说。到2016年,Libra已正式在内部推行。
这是真实需求推动的结果。字节内部数据驱动的价值观深入人心,对于A/B测试这种量化和科学评估的方法,需求越来越高频。
“刚开始产品少,主要围绕今日头条的推荐算法去做A/B测试,但随着业务不断壮大,团队有很多新的idea,(A/B测试工具的)规模化就有诉求了。”Libra PM 慧开告诉「深响」,“A/B实验,比较依赖于数据计算分析能力,数据中台化,很早就在字节萌芽,这都为我们做Libra提供了很好的基础。” 有了数据建设和工具的基础设施,她用了“水到渠成”这个词来描述Libra的发展。
但字节跳动产品众多,增长飞轮不断加速,在这样的背景下,如何去打造一个通用性的平台?
字节庞大的产品矩阵 图源:官网
事实上,中台和业务的多样性,本身是不冲突的。但难点在于,不同的产品,诉求千差万别。信息流产品、工具类产品、直播产品等,相应的A/B测试的实验场景不同。而且,在使用Libra之前,内部不同团队可能都有自研,或正在使用的A/B测试工具了,这又给Libra带来了新的挑战和竞争。
一步一步来。Libra的研发团队深入业务,去了解每个产品的技术形态,需要怎样的A/B工具接入;了解数据是如何流转的,而应对不同数据规模,Libra又应该如何做处理。
“我们尽量把其中共性的东西提炼出来,构建技术支撑,并把一些核心能力和场景梳理好;另一方面,针对业务的特殊需求,投入专人去做。”Libra研发人员子牧解释道。
不过众所周知,“中台”类型的工具如果得不到内部业务端的支持,最终就会沦为鸡肋。Libra能在字节里持续进化,离不开字节内部的高效协同。
苏嘉沐告诉「深响」,在使用过程中,遇到Libra难以解决的问题时,提出需求,研发会快速跟进。“假设我们在某个实验中,需要一个功能,是对特定用户分流,或者是,需要新增一个指标的显著性计算等等,我们都能迅速、直接地找到他们(研发团队)。”她说。
字节产品多,业务线庞大,A/B实验需求旺盛,但是通过双向的沟通,Libra成为了功能强大、场景覆盖广阔的测试平台。它能从统计学上比较科学地去解决用户分流的难题。在实验进程中,Libra提供了一个全面指标监控体系,使数据变化实时可追踪,帮助后续决策。
经受几十万次实验的打磨,Libra不仅积累了字节A/B测试的技术手段,也沉淀着对这一方法的认知。
需求来了
Libra在字节内部生根发芽,与此同时,商业世界,特别是互联网公司对于A/B测试的认知也在扩散。
国外科技巨头谷歌亚马逊、FB、Netflix等都是A/B测试的拥趸者。国内腾讯、阿里、百度、美团、滴滴等头部互联网公司也在积极采用这一增长方法。而一些中小创业公司看到了A/B测试的功效,正在试图用数据驱动的理念,让公司跑得更快、更稳。
这给了字节跳动把内部工具Libra外化的环境契机。
2017年,一些对字节技术非常认可的客户主动提出了需求。这些需求促使字节团队试水,输出了以A/B测试工具为核心的一系列数据分析工具。2019年,在初步尝试之后正式立项,字节开始决心做一个对外的A/B测试平台,让更多外部客户可以使用这个增长利器。
“本质的驱动点是,这个工具能服务内部,也有机会在外部市场上产生价值, ”子牧参与了A/B测试产品化的推动,他说,To B的事情,团队也是从零开始,但是结合内部的经验和外部的市场预期,大家很有信心。
不过,虽然数据导向已是共识,科技公司对A/B测试的认知开始成熟,但是落到实际操作,A/B测试的应用依然不广泛。
究其原因,其一,A/B测试的时间、研发、资金投入成本高,对中小团队来说,为A/B测试做数据基建未必是一个高收益率的选择。其二,技术壁垒高,A/B测试原理简单,但在应用中,根据case的复杂程度,实验设计要求非常精细。若在分流、指标设计、统计和解读环节有漏洞,A/B测试只能说是事倍功半。市面上有独立的第三方A/B测试工具,但尚在分散状态,未见明显领军者。
字节的A/B测试工具是火山引擎在智能营销套件产品应用层的重要产品。面对上述痛点,这个工具希望为企业提供专业的分流能力、科学的统计算法与丰富的实验功能。
从内部工具到对外输出,这款工具的逻辑思路发生了微妙的变化。子牧用两个关键词——“化繁为简”、“从简单到丰富”——来概括这样的变化。
一方面要让这个A/B平台相比Libra更简单易用。
“早期孵化时期,我们多做减法,抽象精简,尽量降低门槛和用户成本,而非直接开放Libra。”他说。但外部市场的很多客户在A/B测试方面的技术投入和能力差距比较大,让用户先接触这个工具,有机会把它用好,是必须要走的一步。
另一方面是拓展到各个行业,以及在常用场景上做深度迭代,即“从简单到丰富”。
最初一批种子用户主要来自泛互联网行业,主打的诉求就是增长、增效。这是字节的优势场景,内部已有很多实践,头条、抖音等成功产品,经验和方法沉淀、体现在产品中。其实,有数字化转型诉求的传统行业,比如金融,也有A/B测试的需求,这要求实现跨行业通用的产品支持。并且,在广告、营销等有重点需求的场景,做更精细化的运营。
经过2019年一整年的内部孵化,2020年初,火山引擎的A/B测试工具已经开始了规模化尝试。
A/B测试是火山引擎智能数据产品中最强的单品之一。在整个火山引擎To B架构应用层中,还形成了彼此强关联的产品体系,包括UBA、CDP、GMP等。它们通过数据分析和洞察——策略设置——实验上线验证——功能上线——效果再验证,这一整套完整的闭环全方位助力解决企业的增长困局。
种子用户的体验已经初步验证了上述思路。
比如预约出行服务平台悟空租车。租车出行场景里,不可缺少的环节之一是押金缴纳。押金缴纳有多种形式,如直接缴纳、第三方信用免押等。对于用户来说,在付款环节若无法使用信用进行免押,就必须同时支付一笔额外的数额较大的押金,增加的现金流成本会影响用户决策,这直接波及平台的成单率。
悟空租车团队希望找到一种方式,降低押金开销带来的对决策的负面影响,提升下单转化率。因此,团队通过火山引擎A/B测试产品,设计了一组实验:
- 对照组:现行支付流程,用户在下单页面需要同时支付租金与押金;
- 实验组:新方案,用户在订单支付完成后,再进入押金缴纳页。
悟空租车设计的A/B测试,新方案分离了押金缴纳页。
实验运行两周后,团队发现针对“最终下单完成”这一指标,实验组比对照组上升了7%。用真实数据说话,实验之后,悟空租车决定开放新方案给全量用户。
字节自身的经验赋予火山引擎A/B测试这一产品极大的优势。子牧认为,相较国内外其他A/B测试平台,目前从产品能力的完备性和实验场景的丰富度上来讲,火山引擎A/B产品毫不逊色。
这既包括实验基础的流程管控能力,也包含实验后的报告分析能力。背后依托是头条、抖音这些大数据规模场景下的验证。同时,内部很多成长中的业务,也为产品提供了高覆盖度。
ToB市场的客户需要的不仅是一个产品,还有方法来落地。“不仅在推进对接客户中,而且在后续的实验方法论培训、重难点分析支持、运维等方面,我们也提供服务。”他说。
我们回过头来看A/B测试本身,这绝非易事。很多时候,方法原理越是朴素,可延展性就越高。用慧开的话来说,对A/B测试,她经历了四个阶段:你并不知道自己不知道;知道自己不知道;我知道自己知道;我不知道自己知道。
最初接触A/B的时候,觉得实验分流、统计分析并不难实现,非常容易复刻。但是随着各项产品发展的速度,复杂棘手的问题频频出现,简单的方案无法满足业务需求,人的经验和对业务的深刻理解愈发重要,A/B测试背后那么多门道,她认识到“方法比功能更重要”。再往后,顺应业务发展,人也在迭代,摸清了一些规律,发现问题后能够更多维度去寻找解答。“更上一层,是我们要努力的方向吧,可以得心应手地用A/B测试去解决各种各样的问题。”
A/B测试工具是一个有力的把手,其延伸开来是火山引擎提供的整套的解决方案——基于字节跳动的成长理念,火山引擎将服务字节跳动从0到1、从1到N的能力与工具产品化输出的具象体现。
结语
其实说起来,“抖音”这个名字并不是A/B测试结果的第一名。
当时产品已有demo,但还未正式发布,于是团队把产品用不同的名字和logo包装,在应用市场商店做A/B测试,并且保证对方案们投入同样的预算,同样的位置以测出用户对名字的敏感度,吸引力程度,下载转化率等等。
“抖音”排名第二。团队讨论认为,相比第一名,“抖音”长期来说更符合认知,更能体现产品形态,于是采纳了这个名字。
A/B结果是为决策提供依据,最终做出判断的还是人。
苏嘉沐告诉「深响」,有一次团队对内容策略进行调整,按理说内容供给很重要,需要鼓励用户去发布内容提升平台丰富度。但A/B测试的结果却让团队犯了难——如果算法多给用户推荐可模仿的模板视频可以提高投稿率,但同时,过多的同质化视频会让用户整体消费的时长变短。
“在平台更多的内容输入和用户整体的消费体验之间,必须做出权衡。”苏嘉沐说:“这就还得回归到产品的价值观来做决定。「用户最终的使用黏性」成为这个案例里的评估尺度。”
A/B测试不是灵丹妙药。理解它的工具属性,或许是正确认知的第一步。
(以上采访对象为化名)