什么是A/B测试?你是怎么做到的效果如何本文为您共享几个应用程序场景和案例,告诉您如何在团队中有效地促进A/B测试。
本文论述了AB测试对企业转型的价值,以及如何有效地促进AB测试和团队中AB测试系统的科学设计。
震颤可以说是当今最热的成长公司。在街上和巷子里行走的人中,手机很流行。这让腾讯深感危机,并被迫应对。自2017年下半年以来,震颤在大象水平上呈现爆炸性增长。
它的母公司,字节反弹,价值750亿美元,本身就是一个非常实验性的公司,通过A/B测试推动科学成长。
A/B测试对于标题产品来说是一件很自然的事情,整个公司一直在关注它,因为高级管理人员张一鸣曾在一份报告中写道,标题发布了一个新的应用程序,其名称必须通过将N个包放在多个A/B测试中来确定。应用市场。张一鸣告诉他的同事,即使你有99.9%的信心,这是最好的名字,怎么可能是一个神奇的马关系测试它
今天的头条新闻从名字开始使用数据思维。创始团队没有头脑风暴,没有投票,没有大人物。相反,它使用科学实验通过数据观察来确定标题的名称。
他们整理出AppStore上各种免费列表的前十名,然后根据姓名(琅琅上话、内涵感受、模拟特殊声音、公司名称+用法等)进行分类,分析这些类别的比例。朗朗上口的口语效果最好。
其次,通道AB测试识别具有相似先验效应的发布通道,并将它们分别放入。界面的标志功能完全相同。计算核心数据指标,如用户下载和每个频道的活动。最后,《今日头条》的结果是最好的。
A/B测试是产品优化的一种方法。对于相同的优化目标,制定了两个方案(例如,两页)。用户的一部分可以使用方案,而另一部分使用B方案。计算不同方案的转化率、点击率和保留率,比较不同方案的优劣,做出决策。
在A/B测试更成熟的公司,它可能不仅限于A和B版本。可能有ABC测试,ABCD测试,甚至ABCDE测试。
在某些情况下,可能会发生特殊的A/B测试,例如AAB测试。由于整个AB测试系统的准确性需要验证,因此需要建立两个对照组,所以称之为AAB测试。
结合开放数据和深入的行业调查,我们对AB测试频率进行了综述。可以看出,公司的市场价值或成交量与AB测试频率正相关。
许多公司,如谷歌,都拥有相对成熟的A/B测试系统和数据分析平台。平均每周有2000次A/B测试,包括一些比较复杂的实验,如推荐算法A/B测试和相对简单的A/B测试。至于国内一线互联网公司,如BAT,他们每周也进行数百次A/B测试。
我们合作的大多数公司都有广泛的行业,如互联网金融,电子商务,氧气等。他们没有能力和精力自己开发一个成熟的A/B测试平台,所以他们选择与TestinA/B测试合作,以便快速地将A/B测试服务应用到他们的业务中。
例如,互联网金融用户在使用TestinAB测试之前,每周只能进行0.1A/B测试。使用云A/B测试服务后,A/B测试的频率大大提高,每周进行大约30次A/B测试实验。
当然,在其每周30次实验中,约有13次的实验会达到转化指数提高5%-30%,剩下的23次的实验结果不理想,没有达到较好的数据指标。
通过这个例子,我们可以看出,大约三分之二的产品构思没有达到预期,也就是说,转换率实际上没有原始版本那么好,这也是需要A/B测试的根本原因。产品直觉用于产品决策,但23改进不是最优解决方案。
上图显示了微软Bing搜索引擎AB测试的增长曲线,涵盖了2008-2015年Bing的AB测试实验的增长。
可以看出,Bing产品开始时,每周AB测试频率保持在10-50之间,2012年后,每周BingAB测试频率进入快速增长期。
图中右下角的绿色曲线是Bing移动终端的AB测试频率增长曲线,通过该曲线可以看出Bing非常重视并认真实施AB测试实验,以推动数据增长,促进业务发展。
我们首先来看一下移动应用程序中A/B测试的四个主要应用程序场景:应用程序、着陆页面、后端算法和小程序。
APP终端是移动互联网发展的主要载体。PC或H5(如普通朋友圈屏幕刷屏活动)或广告登陆页面可分为登陆页面。还有后端算法场景,如推荐算法、广告算法、数千人等。
在不同的场景中,AB测试的重点也是不同的,但是核心目标仍然是围绕业务的增长,也就是熟悉的PolarisIndex。
这种情况是在其产品的商业化过程中的尝试。希望提高商店中表达包或道具的支付率,但是为了完成支付目标,第一步是提高商店入口处的点击率。
因此,他们设置了几个商店入口方案(改变图标样式、复制),通过A/B测试来验证哪个方案可以最大化商店入口的点击率。
在验证过程中,他们还对人群目标进行了有针对性的测试,如日本、中国、韩国和其他地区。最后,他们在这个入口同时推出了7-8个测试版本。通过A/B测试,整体点击率提高了约80%。
这种情况是互联网金融行业的应用。他们希望通过更改签入按钮的文本来提高保留率。按钮的文本从签入改为签到赚钱。A/B测试进行分配5%的流量版本A和B。
经过测试,我们发现新版本的签入时间比原始版本高4.17%。95%置信区间的结果表明,小规模人群的测试结果扩展到全规模用户,95%的概率提高了1.7%-6.6%。P-值小于0.05,表明新旧版本之间有显著的统计学差异,其中Power100有显著的统计学效果。
在该测试中,利用TestinAB测试的可视化功能,直接修改相关元素的属性,实现控制功能,无需开发人员的干预。
我们知道A/B测试的成本,例如开发多个版本、构建可用的A/B测试和数据分析平台等。
考虑投入产出比,AB测试平台有两个必要条件:一是产品决策影响很大,二是产品方案选择困难。
如果决策对产品有很大影响,但是选择并不困难,那么就不需要A/B测试,例如,是否向App添加Wechat和第三方登录,这对产品有很大影响,但是决策并不困难,因为有共同的解决方案在行业中。
例如,增加非常小的功能,并且功能入口非常深,用户数量很少,那么AB测试的优先级就不高,只有当产品决策满足影响大和难以选择的两个条件时,它才能最适合AB测试。
以我们自己的测试为例,我们将根据函数的影响大小和选择它们的困难程度来对要测试的函数进行优先级排序,然后确定哪些函数需要进行A/B测试。
通过与我们的合作伙伴(如Freedom、36氪、短消息子弹或51信用卡)通信,我们发现在陆地上进行AB测试有三个关键因素:
首先,从人的角度
同时,如果成长或产品团队的领导者没有这种意识,认为AB测试并不重要,并且更多地依靠经验来作出产品优化决策,那么AB测试也很难做到。
对于APP,包括目前的小程序,新产品层出不穷,产品面临激烈的竞争,此外,互联网流量的股利期正在逐渐结束,获取客户的成本也在增加。如果你想继续实现业务增长,最有效的方法是找到AB测试、数据驱动的增长路径。
行业趋势决定了所有团队将慢慢地通过科学实验迁移到增长路径上。即使您现在的团队很难促进A/B测试,但我相信在不久的将来,A/B测试将是产品增长的最重要的驱动力。
我与更多的欧美增长型同行进行了深入的交流,深感他们在互联网企业中的A/B测试氛围更强,主要是因为美国的劳动力成本相对较高,他们特别关注投入产出比,所以他们很早就进入了精细操作阶段。
自主研发在可控性和业务耦合方面具有一定的优势,但对于一般企业来说,其研发成本和人力成本都很高。AB测试服务的开发也涉及更严格的数据统计。需要部署专业的数据分析员。
如果我们在市场上使用第三方工具,如TestinAB测试服务,我们可以最大限度地降低成本,并加速业务着陆AB测试服务。
例如,当一个小程序用户在同一天访问TestinAB测试服务后,在同一天运行三个AB测试实验。不管是自己研究还是使用第三方工具,关键是要适合您的团队。
这里需要注意的是,并非所有的实验都会证明对指标的增长有显著的影响,如果是这样,我们就不需要进行实验。
如果这种情况发生,我们需要告诉我们的团队成员不要灰心,因为一些实验证明是无效的,我们将找到一种有效的成长方式。
实验失败是一个大概率的事件。我们最好的方法是增加测试的频率并继续测试,而不是仅仅尝试它并回到经验主义的旧方式。
介绍了着陆AB测试的三个关键因素和AB测试的最佳实践流程,并分享了企业AB测试成熟度模型。
我们将企业A/B测试分为四个阶段,即开始阶段、成长阶段、成熟阶段和大规模应用阶段,这种能力成熟的核心指标是每周可以进行多少A/B测试。
在初始阶段,平均每周可进行0-1A/B测试。整个组织结构处于尝试A/B测试的开始阶段。但是,目前还没有建立AB测试实验平台,实验仍采用最简单的分流方法和数据分析方法。
此时,A/B测试不是标准的A/B测试。从实验评价体系的角度出发,虽然已经确定了转化率等基本指标,但还没有形成体系。
什么是系统指标也就是说,从单一指标体系到多维指标体系,系统跟踪实验对产品影响很大。
第三阶段是相对成熟的阶段,每周可以进行3至10次测试。AB测试已经成为产品迭代过程的一部分,并且需要高级功能,如可视化AB测试和后端AB测试,以满足各种AB测试需求。
在成熟和大规模应用阶段,提到了名词OEC,OEC可以理解为综合评价指标,也可以是综合指标。通过加权平均得到多个单项指标,通过OEC的设置,指导整个组织的绩效发展。
下面,我想和大家分享一下设计一个典型的AB测试系统需要哪些能力或特性:
本文重点研究了分层业务分割机制的需求,如果没有分层业务分割机制,则存在以下局限性:
采用分层的流量划分机制,可以很好地满足不同业务或场景之间、不同产品模块之间的AB测试需求。
作者:陈冠成,睾丸副主席,睾丸A/B检测业务负责人,欧洲科学院院士PerSte.om教授,发表了6篇关于大数据和8项国际专利的国际论文。他为AtlasandEnjoyableWealth等公司建立了一个AB测试驱动的增长数据系统。
相关文章