代码之家  ›  专栏  ›  技术社区  ›  Chris Cudmore

服务器日志的统计分析.外推的正确性

  •  1
  • Chris Cudmore  · 技术社区  · 16 年前

    我可以从服务器日志重建事件流。然而,在317名候选人中,175人使用了本地代理,这意味着他们似乎都来自同一个IP。我分析了其余142人(45%)的数据,得出了一些关于他们发生了什么的好数字。

    编辑:根据数字,我指的是受影响个人的数量。例如,5/142显示会话期间浏览器崩溃的证据。11/317发生浏览器崩溃的推断有多正确?

    1 回复  |  直到 16 年前
        1
  •  2
  •   Theran    16 年前

    我不确定我们讨论的是什么测量,但现在让我们假设你想要的是平均分数。无需对人口(317名候选人)的平均得分进行调整。只需使用样本的平均值(您分析其数据的142个样本)。

    NIST statistics handbook . 你必须首先决定你愿意有多不确定。让我们假设你想要95%的置信度,即真实的总体平均值在区间内。然后,真实总体平均值的置信区间为:

    (样本平均数)+/-1.960*(样本标准偏差)/sqrt(样本量)

    编辑:因为我们讨论的是带有属性的样本比例,例如“浏览器崩溃”,所以情况有点不同。我们需要对一个比例使用一个置信区间,并通过乘以人口规模将其转换为若干成功案例。这意味着我们对崩溃浏览器数量的最佳估计是5*317/142~=11,正如您所建议的那样。

    如果我们再次忽视我们的样本几乎占总人口的一半这一事实,我们可以使用 Wilson confidence interval of a proportion . A. calculator is available online