代码之家 › 专栏 › 技术社区 › Chris Cudmore

服务器日志的统计分析.外推的正确性

statistics math

Chris Cudmore · 技术社区 · 16 年前

我可以从服务器日志重建事件流。然而,在317名候选人中,175人使用了本地代理,这意味着他们似乎都来自同一个IP。我分析了其余142人(45%)的数据,得出了一些关于他们发生了什么的好数字。

编辑:根据数字,我指的是受影响个人的数量。例如,5/142显示会话期间浏览器崩溃的证据。11/317发生浏览器崩溃的推断有多正确?

1 回复 | 直到 16 年前

Theran 16 年前

我不确定我们讨论的是什么测量,但现在让我们假设你想要的是平均分数。无需对人口(317名候选人)的平均得分进行调整。只需使用样本的平均值(您分析其数据的142个样本)。

NIST statistics handbook . 你必须首先决定你愿意有多不确定。让我们假设你想要95%的置信度,即真实的总体平均值在区间内。然后,真实总体平均值的置信区间为:

(样本平均数)+/-1.960*(样本标准偏差)/sqrt(样本量)

编辑:因为我们讨论的是带有属性的样本比例,例如“浏览器崩溃”,所以情况有点不同。我们需要对一个比例使用一个置信区间,并通过乘以人口规模将其转换为若干成功案例。这意味着我们对崩溃浏览器数量的最佳估计是5*317/142~=11,正如您所建议的那样。

如果我们再次忽视我们的样本几乎占总人口的一半这一事实,我们可以使用 Wilson confidence interval of a proportion . A. calculator is available online

推荐文章

Madison Ell · R列表不断返回NAs,我该如何修复?

2 年前

Crawford Patten · 如何获得整数列表的四分位数

2 年前

ChrissiLissi · 我的功能有什么问题?使用匹配ID计算百分比

2 年前

Caledonian26 · 向qnorm图中添加直线

2 年前

krassowski · 如何将'VGAM::cumulative'包装到助手函数中('object not found'问题)?

2 年前

vytaute · python scipy中的相关性在统计学上是否显著?

2 年前

remo · R:带子集的T-统计量

2 年前

chiuki · 具有上限的int列表的再分配

2 年前

StatsNovice · 实现一个函数来计算马尔可夫链周期间变化的方差

2 年前

Hamid · 从Javascript(节点)调用R函数

6 年前