样本量⼤⼩会影响假设检验的结果(是否显著)吗?这不是我想要的结果
今天听课听到这样⼀个结论:如果假设检验的样本量很⼤,那么显著性⽔平α应该设得⼩⼀点。
为什么呢?我没想通,于是去⽹上试图查答案。结果发现⽹上很多⼈还在纠结:如果假设检验的样本量很⼤,那么会使假设检验的结果⾮常容易产⽣显著性。这是不是真的?样本量太⼤是不是不好?
我:很久之前我就知道这种说法没有道理,但是我从来没有仔细去研究过这个问题。这次在知乎和stackexchange上搜罗了⼀下⼤家的回答,发现很多⽼师包括很多书上的说法都是错误的,在这⾥有必要澄清和记录⼀下。
⾸先,有些⼈之所以认为⼤样本会使假设检验结果更容易产⽣显著性,理由如下:
反对者说:这正说明了⼤样本的好处呀。如果样本量⼩,那么很可能假设检验的结果是由于偶然的原因导致的。样本量越⼤,我们越可以肯定假设检验的结果是准确的。
还有⼀种理由是这样的,以t检验为例,根据t值的计算公式:,如果样本量n越⼤,标准误差就越⼩,这样t值就越⼤,也就可以推出p值越⼩,这不就说明样本量越⼤,结果越容易显著吗?
反对者说:如果效应量不变,那么这种说法是正确的。但是,在其他部分(α,1-β)不变的情况下,n越⼤,效应量越⼩,因此t值并不会因此变⼤。
反对者承认,在⼤样本的情况下,我们会检测出那些细⼩但有时不具有实际意义的差别。也就是说,即使假设检验的结果具有统计显著性,但是由于该结果的效应量太⼩,因⽽该结果没有什么意义。⽐如《》这个例⼦,转化率从30%到33%,这个需要提升的部分就是我们希望假设检验能检测到的最⼩差别,以此可以计算出效应量。从样本量的计算中可以看出来,在其他部分(α,1-β)不变的情况下,效应量越⼩,我们需要的样本量就越⼤。因此,也就是说样本量越⼤,假设检验也就越敏感,越容易检测出细⼩的差别。但这并不是说我们不应该使⽤⼤样本,⽽是说我们对假设检验结果的解释依赖于效应量和敏感度。如果效应量很⼩,敏感度⼜很⾼,那么很可能结果具有统计显著性但并没有什么实际意义。
那么为什么⼤家都在争论这个问题呢?谁也说服不了谁。我觉得是因为他们都没有说清楚前提条件,以⾄于⼤家说话没在⼀个频道上。
如果我们保持效应量不变,也就是说把我们想要检测出的最⼩差别确定好,此外把想要达到的power也确定好,那么如果样本量⼤的话,统计检验量的值确实更容易被检测出显著。在这种情况下,我们应该把α调⼩⼀点,这样可以同时很好地控制第⼀类错误和第⼆类错误出现的概率。
回到开头说的这个结论,我问了教授,说是假设检验本⾝设计是没错的,但是⼈们经常会错误地使⽤它。不是说样本量⼤了就不好,⽽是样本量⼤了,我们应该把显著性⽔平α调⼩⼀点,⽽不是⽣搬硬套,⼀直使⽤α=0.05。