样本量大小会影响假设检验的结果(是否显著)吗?

样本量⼤⼩会影响假设检验的结果（是否显著）吗？这不是我想要的结果

今天听课听到这样⼀个结论：如果假设检验的样本量很⼤，那么显著性⽔平α应该设得⼩⼀点。

为什么呢？我没想通，于是去⽹上试图查答案。结果发现⽹上很多⼈还在纠结：如果假设检验的样本量很⼤，那么会使假设检验的结果⾮常容易产⽣显著性。这是不是真的？样本量太⼤是不是不好？

我：很久之前我就知道这种说法没有道理，但是我从来没有仔细去研究过这个问题。这次在知乎和stackexchange上搜罗了⼀下⼤家的回答，发现很多⽼师包括很多书上的说法都是错误的，在这⾥有必要澄清和记录⼀下。

⾸先，有些⼈之所以认为⼤样本会使假设检验结果更容易产⽣显著性，理由如下：

反对者说：这正说明了⼤样本的好处呀。如果样本量⼩，那么很可能假设检验的结果是由于偶然的原因导致的。样本量越⼤，我们越可以肯定假设检验的结果是准确的。

还有⼀种理由是这样的，以t检验为例，根据t值的计算公式：，如果样本量n越⼤，标准误差就越⼩，这样t值就越⼤，也就可以推出p值越⼩，这不就说明样本量越⼤，结果越容易显著吗？

反对者说：如果效应量不变，那么这种说法是正确的。但是，在其他部分（α，1-β）不变的情况下，n越⼤，效应量越⼩，因此t值并不会因此变⼤。

反对者承认，在⼤样本的情况下，我们会检测出那些细⼩但有时不具有实际意义的差别。也就是说，即使假设检验的结果具有统计显著性，但是由于该结果的效应量太⼩，因⽽该结果没有什么意义。⽐如《》这个例⼦，转化率从30%到33%，这个需要提升的部分就是我们希望假设检验能检测到的最⼩差别，以此可以计算出效应量。从样本量的计算中可以看出来，在其他部分（α，1-β）不变的情况下，效应量越⼩，我们需要的样本量就越⼤。因此，也就是说样本量越⼤，假设检验也就越敏感，越容易检测出细⼩的差别。但这并不是说我们不应该使⽤⼤样本，⽽是说我们对假设检验结果的解释依赖于效应量和敏感度。如果效应量很⼩，敏感度⼜很⾼，那么很可能结果具有统计显著性但并没有什么实际意义。

那么为什么⼤家都在争论这个问题呢？谁也说服不了谁。我觉得是因为他们都没有说清楚前提条件，以⾄于⼤家说话没在⼀个频道上。

如果我们保持效应量不变，也就是说把我们想要检测出的最⼩差别确定好，此外把想要达到的power也确定好，那么如果样本量⼤的话，统计检验量的值确实更容易被检测出显著。在这种情况下，我们应该把α调⼩⼀点，这样可以同时很好地控制第⼀类错误和第⼆类错误出现的概率。

回到开头说的这个结论，我问了教授，说是假设检验本⾝设计是没错的，但是⼈们经常会错误地使⽤它。不是说样本量⼤了就不好，⽽是样本量⼤了，我们应该把显著性⽔平α调⼩⼀点，⽽不是⽣搬硬套，⼀直使⽤α=0.05。

样本量大小会影响假设检验的结果(是否显著)吗?

发布评论取消回复

最近发表

热门文章

标签列表