>

数据的比较分析(二):不同产品版本之间的差

- 编辑:网赌十大信誉的平台 -

数据的比较分析(二):不同产品版本之间的差

  在“A/B测试”和“竞品分析”中,我们如何判断两个版本的产品设计的差别?

  上节《数据的比较分析(一):我们达到或者超过目标了吗?》我们讲述的是产品改版基于目标指标,我们距离还有多远,从而制定改进的产品迭代的策略。

  而这节讲到不同版本之间的差异,主要用在“A/B测试”和“竞品分析”中,我们需要判断两个版本的产品设计的差别,如转化率、任务时长、排名;仅仅通过描述性的统计并宣称一个设计的好坏是远远不够的,这时候我们就会发现统计学的必要性。

  一般来说是让通一组人参加两个不同版本的设计,这两个版本可能是竞品,可能是一个公司不同产品经理或者UI设计师设计出来的作品;这样的试验好处在于可以排除个体差异对测试结果的混淆。

  在这类测试中你需要对用户先接触哪个产品做平衡处理,从而将学习效应的影响降到最低。

  如果让用户先体验A产品,无论结果是支持或者否定A产品,都可能存在由于顺序造成的用户偏差风险,这时候组内设计发挥的作用是,将检测结果的差异归因产品间有差异(而非个体的差异),且同样的样本可以检测到更小的差异。

  组间设计比较的是不同的用户使用不同的产品,不同的用户和不同的设计都会带来变化;所有我们必须检验均值间的差异是否比不同的用户所带来的差异更大。

  这里要特别说明一下A/B测试,现在我们常用的AB测试一般来说都是测量的是转化率这个指标,但是转化率这个指标我觉得是一个综合指标,一个转化目标是受很多因素来影响的,例如例如转化目标受产品的可用性、LITT模型等等。

  而且在测试期间,为了保证不同版本的测试差异最小,需要的是同一时间、同一场景、同一用户样本,所有这这期间在最短的时间内达到需要的样本容量的话,所受的影响因素会最小。

  所以很多AB测试的产品都需要使用的产品在日活达到1000UV以上,这样就能在最短的时间内,达到想要的样本容量。

  我们得到检验统计量(t)值之后,为了确实是否差异显著,需要在t表(t-table)中查p 值(p-value),也可以使用Excel公式=TDIST()来计算或者核算值。该计算方法无论大小样本都适用。

  配对t检验中的p值只用来告诉我们差异是否显著,但是我们做比较的时候我们还想知道差异究竟有多大既常说的“效应量”;随着样本容量增大(至少100以上),检测结果很容易出现统计显著差异,而实际的效应量却不显著。

  差异的置信区间有助于区分细微的(即便是统计显著性的)差异和值得引起使用者注册的差异。

  组间比较的时候,不同用户使用不同的产品;不同用户和不同设计都会带来变化。必须建议均值间的差异是否比不同用户所带来的差异更大。

  这属于双样本t检验,得出的t值需要使用Excel公式=TDIST(t,自由度,样本组数量),通过这个公式来得到p-value值,最后确定两个样本直接是否存在统计的显著性。

  其中s表示的是分别两个样本的标准差,n表示的是两个样本的样本量;如果手头没有计算工具,且方差又是同质性的时候,你可以通过样本1的数量+样本2的数量-2;如果方差的差异较大(比如两个标准差比例大于2)时,可以采用保守快捷的方法,用较小的样本量减去2。

  一个二分式离散型变量只有两个值,诸如是/否、已完成/为完成、已转换/未转化

  连续性的组内检验是(配对t检验),消除用户之间的差异,所以相比同等样本量的组间设计,组内设计有更高的概率检测到差异。

  为了判断两组不同的完成率、转化率或者任何二分变量之间是否存在显著差异,对所有大小的样本我们使用的是McNemar精准检验,通过计算p值来检验异序对样本比例是否大于0.5(也称为符号检验)。

  单侧检验的p值是这两个比例的和,0.0078+0.0547=0.0625,因此双侧检验的概率是2倍(0.125)。

  若是计算中间概率的话,中间概率等于观测值精准概率的一般,加上小于观测值得所有值得概率和。在上面的例子中,小于观察值的所有值得概率就是零对异序对的概率,为0.0078。

  还有McNemar卡方检验,和McNemar卡方检验的耶茨校正;但是不推荐使用,因为对于McNemar卡方检验来说,常常会低估了不同样本容量的真实概率,同时该方法在对样本容量分析效果不明确。而对于McNemar卡方检验的耶茨校正,该方法夸大了所有样本容量的真实值,所有在这里就不一一阐述了。

  为了估算配对二元结果间可能的差异程度,我们以上公式是采用适当Wald校正置信区间,采用2*2表格进行试验设置,该校正的方法是给每个格子中加上特定置信度下正态分布临界值平方的1/8。在95%置信度下,等于给试验总数N加入了两个伪观值。

  在计算出卡方检验的值之后可以用Excel公式CHIDIST(卡方检验的值,1),计算出p-value值;1代表的是双侧检验,0代表的是单侧检验。

  N-1卡方检验适用于小样本检验,且期望单元格的次数要大于1使用,N-1是样本的校正值。

  N-1双比率检验样本适用的法则是:每个样本中至少有10个成功,10个失败;且期望单元格的次数要大于1时使用。我们使用一个正态(Z)表查找双侧的p值,或者用Excel公式=(1-NORMSDIST(Z)*2),计算出双侧的p-value值。

  Fisher精准检验使用精准的概率来代替卡方分布和t分布中的估值,精准的计算方法更倾与保守,计算出的p值会比原来的更高一些,因此在两组的差异更大的时候才能达到统计显著。Fisher精准检验是在2*2表中边缘和(m、n、r和s单元格中的值)固定不变的情况下,表内4个实际频数变动时的所有可能组合的概率来计算p值。

  以下是校正后Wald置信区间,只不过在这里是用于检验两个比例的差异,而不再是一个单独的比例。

  在计算校正计算比例的时候,把分子加上z临界值得平方的四分之一,把分母加上z临界值得平方的二分之一。置信度为95%时,双边检验临界值为1.96。这样做就好比每个样本个增加两个假冒的观测对象——一个成功一个失败

  上节和这节中我们讲到了很多公式,但是作为一个数据产品经理或者数据分析师,看到数据分析的本质是为了发现问题和解决问题,其他任何方法,都是通往解决问题的一个途径,如何选择最合适的方法解决问题才是关键。

  人人都是产品经理(是以产品经理、运营为核心的学习、交流、分享平台,集媒体、培训、招聘、社群为一体,全方位服务产品人和运营人,成立8年举办在线+期,线+场,产品经理大会、运营大会20+场,覆盖北上广深杭成都等15个城市,在行业有较高的影响力和知名度。平台聚集了众多BAT美团京东滴滴360小米网易等知名互联网公司产品总监和运营总监,他们在这里分享知识、招聘人才,与你一起成长。

本文由社会科学发布,转载请注明来源:数据的比较分析(二):不同产品版本之间的差