你还记得你的第一次A/B测试吗?我做的事。(书呆子,我知道。)

我感到既兴奋又恐惧,因为我知道我必须这样做实际上把我在大学学到的知识运用到我的工作中。

A / B测试有一些方面我仍然记得 - 例如,我知道你需要一个足够大的样本大小来运行测试,你需要运行测试足够长的测试,以获得统计上显着的结果。

但是......这很多。我不确定样本大小的“足够大”是多大的“足够的”,“足够长”进行测试持续时间 - 而Googling它给了我各种答案,我的大学统计课程绝对没有为我做好准备。

事实证明我并不孤单:那些是我们从客户获得的最常见的A / B测试问题中的两个。谷歌搜索的典型答案的原因并不是有用的,因为他们在理想的理论,非营销世界中谈论A / B测试。

所以,我认为我会做研究,以帮助以实际的方式回答这个问题。在此帖子的末尾,您应该能够知道如何确定下一个A / B测试的正确样本大小和时间框架。让我们潜入。

免费下载:A / B检测指南和套件

A / B检测样本大小和时间框架

从理论上讲,要确定变更A和变化之间的胜利者B,您需要等到您有足够的结果,以查看两者之间是否存在统计学上有显着差异。

根据您的公司,样本大小以及如何执行Araybet电子竞技 / B测试,在数小时或几周或几周内可能发生统计学显着的结果 - 在获得这些结果之前,您只需坚持出来。在理论上,你不应该限制收集结果的时间。

对于许多A / B测试,等待没有问题。在着陆页上测试标题副本?等待一个月的结果很酷。同样与博客CTA Creative - 无论如何,您将要参加长期的领先发电。

但营销需求的某些方面需要较短的时间表在A / B测试时更短。以电子邮件为例。通过电子邮件,等待A / B测试的结论可能是一个问题,出于几种实际原因:

1.每台电子邮件发送都有一个有限的受众。

不像登陆页面(你可以随着时间的推移继续聚集新的用户),一旦你发送了a /B测试结束的邮件,你就不能“添加”更多的人到a /B测试中。所以你必须弄清楚怎样才能最大限度地榨取电子邮件的能量。

这通常要求您将A / B测试发送到列表所需的最小部分,以获得统计上显着的结果,选择获胜者,然后将获胜变化发送到列表的其余部分。

2.运行电子邮件营销程序意味着你每周至少要发送几封电子邮件。(事实上,可能远远不止这些。)

如果您花了太多时间收集结果,您可能会错过发送您的下一封电子邮件 - 这可能比您发送了一个统计上重要的赢家电子邮件到数据库的一个段。

3.电子邮件发送通常是及时的。

你的营销邮件被优化在一天的特定时间发送,无论你的邮件是支持一个新的活动启动的时间和/或到达你的收件人的收件箱,他们想要收到它。因此,如果你等待你的电子邮件具有完全的统计意义,你可能会错过及时和相关-这可能会破坏你的电子邮件发送的目的在第一。

这就是为什么发送电子邮件的原因A / B测试程序内置“时序”设置:在该时间框架结束时,如果既不具有统计学意义,则将发送一个变体(您提前选择的)将发送到列表的其余部分。这样,您仍然可以在电子邮件中运行A / B测试,但您也可以在您的电子邮件营销计划需求中努力,并确保人们始终及时满足。

所以,为了在运行A/B测试的同时优化你的发送以获得最佳结果,你必须同时采用两种样本大小定时考虑。

接下来,如何使用数据来确定样本大小和时间。

如何确定A / B测试的样本大小

现在,让我们潜入如何实际计算下一个A / B测试所需的样本大小和时间。

出于我们的目的,我们将使用电子邮件作为我们的示例,以演示如何确定A / B测试的样本大小和时序。但是,重要的是要注意 - 该列表中的步骤可用于任何A / B测试,不仅仅是电子邮件。

让我们潜入。

如上所述,您发送的每个A / B测试只能发送到有限的受众 - 所以您需要弄清楚如何从该A / B测试中最大化结果。要做到这一点,你需要弄清楚最小的你的全部列表的一部分需要得到统计上显著的结果。下面是计算方法。

1.首先要评估你的联系人列表中是否有足够的联系人进行A/B测试。

到A / B测试列表的样本,您需要有一个非常大的列表大小 - 至少1,000个联系人。如果您的列表中的列表中的比例较少,所需的列表的比例将获得统计上显着的结果变大而且更大。

例如,为了从一个小列表中获得统计上有意义的结果,您可能需要测试列表的85%或95%。你名单上还没有测试过的人的结果会非常小,你可能会把你名单上一半的人发送一个邮件版本,另一半发送另一个,然后测量差异。

您的结果在全部的末尾可能并不具有统计意义,但至少您在播放列表时收集了学习,以获得超过1,000个联系人。(如果您想要更多在生长电子邮件列表的提示,以便您可以达到1,000个联系人阈值,看看这篇博文.)

Hubspot客户的注意事项:1,000个联系人也是我们在电子邮件样本上运行A / B测试的基准测试 - 如果您在所选列表中有少于1,000个联系人,则您的测试版本将自动发送到列表的一半而B将被送到另一半。

2.使用样本大小计算器。

接下来,你会想要找到一个样本大小的计算器——SurveySystem.com提供了一个很好的,免费样品大小计算器

这就是当你打开它时看起来像的样子:

ab_testing_calculator.

3.将您的电子邮件的置信水平,置信区间和人口放入工具中。

是的,这是很多统计术语。以下是这些术语在你的电子邮件中的含义:

人口你们的样本代表了更大的一群人。这个更大的群体被称为你们的人口。

在电子邮件中,你的人口是你列表中收到电子邮件的典型人数交付给他们——而不是你给多少人发邮件。为了计算邮件数量,我会查看你过去发送给这个列表的三到五封邮件,并计算发送邮件的总数的平均值。(在计算样本大小时使用平均值,因为发送的电子邮件总数会波动。)

置信区间你可能听说过这个叫做“误差幅度”。很多调查都使用这个方法,包括政治调查。这是A/B测试在整个人群中运行时所能解释的结果范围。

例如,在你的电子邮件中,如果你有一个5的间隔,并且60%的样本打开了你的变体,你可以确定55%(60 - 5)和65%(60 + 5)之间也会打开电子邮件。你选择的区间越大,你就越能确定在这个区间内,人们的真实行动已经被考虑进去了。同时,大的间隔会给你不确定的结果。这是你在邮件中必须做出的取舍。

出于我们的目的,它不值得过于置信间隔。当您刚刚开始使用A / B测试时,我建议选择较小的间隔(例如:约5)。

置信水平:这告诉了你如何确定你的样本结果在上面的置信区间内。较低百分比,肯定的结果肯定会肯定。百分比越高,您的样本中需要的人越多。

HubSpot客户须知:HUBSPOT电子邮件A / B工具自动使用85%的置信水平来确定胜利者。由于该工具中不可用的选项,我建议选择95%。

电子邮件A/B测试示例:

假设我们正在发送第一个A/B测试。我们的名单上有1000人,有95%的交付率。我们希望有95%的信心,我们的电子邮件指标在我们的总体指标的5个点区间内。

这是我们放入工具的内容:

  • 人口: 950
  • 置信水平: 95%
  • 置信区间: 5

sample_size_calculations

4.单击“计算”,您的样本大小将吐出。

ta-da!计算器将吐出样本大小。

在我们的示例中,我们的样本大小为:274。

这是尺寸您的变化需要。因此,对于您的电子邮件发送,如果您有一个控制和一个变体,您需要加倍此数字。如果您进行了控制和两个变体,则会三倍。(等等。)

5.根据您的电子邮件程序,您可能需要计算整个电子邮件的示例大小的百分比。

HubSpot的客户们,我在找你们。当你运行电子邮件A/B测试时,你需要选择发送列表的联系人的百分比——而不仅仅是原始样本大小。

要做到这一点,您需要将示例中的数字除以列表中的联系人总数。下面是使用上面的例子数字得出的结果:

274 / 1,000 = 27.4%

这意味着需要将每个样本(您的控制和您的变化)都需要发送到您的观众的27-28% - 换句话说,大约总共55%的总名单。

电子邮件_ab_test_send.

这是它!您应该准备好选择发送时间。

如何选择合适的A/B测试时间

同样,为了确定A/B测试的正确时间框架,我们将使用电子邮件发送的例子——但无论你进行的是哪种类型的A/B测试,这个信息都应该适用。

但是,您的时间范围也会根据您的业务目标而有所不同。如果您想在Q2 2021设计一个新的着陆页面,它是1月或2月的Q4 2020,您可能希望完成您的A / B测试,因此您可以使用这些结果来构建获胜页面。

但是,为了我们的目的,让我们返回电子邮件发送示例:您必须弄清楚在向列表其余部分发送(获胜)版本之前运行电子邮件A / B测试的时间。

确定时间方面不太受统计因素的影响,但你确实应该使用过去的数据来帮助你做出更好的决定。以下是如何做到这一点。

如果你对何时发送获奖邮件给列表中的其他人没有时间限制,那就去看看你的分析吧。

弄清楚你的邮件何时打开/点击(或者你的成功指标是什么)开始下降。看看你过去发送的邮件来解决这个问题。

例如,你在第一天获得的总点击率是多少?如果你发现,你会得到70%的点击在第一个24小时,然后每天5%之后,它会限制你的电子邮件的A / B测试时机感窗口24小时,因为它不值得推迟你的结果只是为了收集一点额外的数据。

在这种情况下,您可能希望将时序窗口保持为24小时,并且在24小时结束时,您的电子邮件程序应通知您是否可以确定统计上有重要的赢家。

然后,由你接下来做什么。如果您有足够大的样本大小并在测试时间框架结束时发现统计上重要的赢家,许多电子邮件营销计划将自动并立即发送获胜变化。

如果你有足够大的样本量并且在测试时间结束时没有统计上显著的赢家,电子邮件营销工具可能还允许您自动发送您选择的变化。

如果样本大小或正在运行50/50 A / B测试,则何时根据初始电子邮件发送下一个电子邮件,完全取决于您。

如果您有时间限制何时将获奖电子邮件发送到列表的其余部分,请弄清楚您可以在没有不合时宜或影响其他电子邮件发送的情况下发送获胜者的迟到。

例如,如果你在美国东部时间下午3点发了一封电子邮件,要求在美国东部时间午夜结束限时抢购,你肯定不想在晚上11点确定a /B测试的获胜者。相反,你应该在下午6点或7点左右发送电子邮件——这样人们才会觉得舒服参与A / B测试足够的时间来对您的电子邮件进行行动。

这就是它,人们。执行这些计算并检查您的数据后,您应该更好的状态来进行成功的A / B测试 - 统计有效的帮助您将针头移动到目标上。

学习如何在此处运行有效的A / B实验。

终极A / B检测套件

最初发布于11月23日,2020年7:00:00,Updated 10月26日2020年

话题:

A / B测试