您是否曾介绍过营销活动并被要求的结果“但是这些结果是统计学意义?“如果你感到狡猾,你可能会回答“好吧,结果与我们之前所看到的结果不同。这不是重要吗?“

不开玩笑了,作为受数据驱动的营销人员,我们不只是被要求这么做衡量我们营销活动的结果,也是为了证明数据的有效性。 免费下载:A/B测试指南和工具包

就在最近,我有个客户打电话问我同样的问题。这两名营销人员各自创建了一个版本的登录页面,并使用HubSpot的a /B测试功能来收集结果。他们打了个友好的赌,看谁会赢。

几天后,他们得到了结果;其中一个的转化率略高,但他们想知道结果是否具有统计学意义。(我猜是转化率较低的人问了这个问题。)我喜欢一个小小的友好竞赛——我的家人至今还在讲我如何挑战我的兄弟,让他参加一个剥苹果比赛,就为了在一个感恩节“让事情变得有趣”。不用说,我很高兴能帮你解决这个赌约。

虽然有一些免费的工具可以为你计算统计意义(HubSpot甚至在这里也有一个),为了真正理解这些工具告诉您的内容,了解他们计算的是有用的,这是有助于什么。我们将使用下面的具体示例来帮助数字上的数字来帮助您了解统计显着性。

1.确定您想要测试的内容。

首先,决定您想要测试什么。这可以是比较带有不同图像的两个登陆页面的转换率,带有不同主题的电子邮件的点击率,或者博客文章结尾的不同号召行动按钮的转换率。选择的数量是无止境的。

我的建议是保持简单;选择一个内容,您希望创建两个不同的变化并决定您的目标是什么 - 更好的转换率或更多观点是始于的好地方。

你当然可以测试其他变体,或者甚至创建一个多元测试,但在本例中,我们将专注于登陆页面的两个变体,目标是提高转换率。如果你想了解更多关于A/B测试和多元测试的知识,请点击“A / B和多变量测试之间的临界差异。“

2.确定你的假设。

在我开始收集数据之前,我发现在测试开始时陈述我的假设和确定我想要测试的信心程度是有帮助的。因为我正在测试一个登录页面,想看看它是否表现得更好,我的假设是这样的游客收到的登陆页面之间存在关系及其转换率

3.开始收集数据。

现在你已经确定了你想测试的东西,是时候开始收集数据了。由于您可能正在运行此测试以确定将来最好使用的内容,因此您需要提取样本大小。对于一个登录页面,这可能意味着挑选一定的时间来运行测试(例如,让您的页面持续3天)。

对于类似电子邮件的内容,您可能会选择列表的随机样本,以随机发送电子邮件的变体。确定正确的样本大小可能是棘手的,并且右侧样本大小将在每个测试之间变化。作为拇指的一般规则,您希望每个变体的预期值大于5.(我们将进一步覆盖预期值。)

4.计算Chi-Squared结果

您可以使用许多不同的统计测试来根据您的数据来测量重要性。确定哪些是最佳使用取决于您尝试测试的内容以及您收集的数据类型。在大多数情况下,您将使用Chi平方测试,因为数据是离散的。

离散是一种奇特的方式,说明可以生产有限数量的结果。例如,访问者将转换或不转换;单个访问者没有不同程度的转换。

您可以基于不同的信心程度(有时也称为测试的alpha)进行测试。如果你希望达到统计显著性的要求很高,你的alpha值就会越低。你可能看到过信心方面的统计显著性报告。

例如,“结果与95%的信心有统计学意义。”在这种情况下,alpha是.05(置信度计算为1减1 alpha),这意味着在所述关系中发出错误的20个机会有一个。

在收集数据后,我将其放在图表中,以便轻松组织。由于我测试出2种不同的变化(A和B),并且有2个可能的结果(转换,没有转换),我将有一个2x2图表。我将全列和行全部,因此我可以轻松地看到聚合的结果。

统计显着性 - 奇平方观察值-1

5.计算你的期望值。

现在,我将计算预期值是什么。在上面的例子中,如果登陆页面访问者看到的尚未关系以及转换率之间的关系,我们希望看到与版本A和版本B的转换率相同。从总数中,我们可以看到1,945人转换出来在4,935名游客中,或大约39%的游客。

为了计算登陆页面的每个版本的预期频率假设没有区别,我们可以通过该单元格的列总数来乘以该单元格的列总数,并通过访问者的总数划分。在此示例中,要查找版本A上的转换值,我将使用以下等式:(1945 * 2401)/ 4935 = 946

统计 - 意义 -  Chi平方预期值

6.了解您的结果如何与您的预期不同。

为了计算卡方,我将观察到的频率与期望频率进行比较。这种比较是通过从期望中减去观察到的,平方结果,然后除以期望频率的值来完成的。

基本上,我正试图看出我可能期望的实际结果的不同程度。平衡差异放大差异的效果,并除以预期的预期标准化结果。等式看起来像这样:(预期 - 观察)^ 2)/期望

统计显着性 -  Chi平方值

7.找到你的总和。

然后将四个结果相加得到卡方数。这里是0。95。为了看看我的登陆页面的转换率是否与统计显著性不同,我将其与a卡方分布表基于alpha(在这里是0。05)和自由度。

自由度取决于你有多少个变量。对于像这个例子中的2x2表,自由度是1。

在这种情况下,Chi-Square值需要等于或超过3.84,以便结果具有统计显着性。自从.95小于3.84,我的结果是统计学不同。这意味着游客的登陆页面的版本之间没有关系,其中具有统计显着性的转换率。

为什么统计显着性很大

如果您只需使用免费工具来运行计算,您可能会问自己为什么这很重要。了解如何计算统计显着性,可以帮助您确定如何从您自己的实验中获得最佳测试结果。

许多工具使用95%的置信度率,但对于您的实验,如果您不需要测试是严格的,则可能有意义使用较低的置信率。

理解潜在的计算还可以帮助你解释为什么你的结果可能对那些不熟悉统计学的人很重要。

如果您想下载我在此示例中使用的电子表格,因此您可以自己查看计算,点击这里

编者注:这篇博客文章最初于2013年4月发布,但在2020年1月最新,以获得新鲜和全面性。

终极A/B测试套件

学习如何在此处运行有效的A / B实验。

学习如何在此处运行有效的A / B实验。

最初发布于2020年1月30日下午4:30:00,更新于2020年1月30日

话题:

A / B测试