代码之家 › 专栏 › 技术社区 › Shubh

如何在r中按列计算异常值?

Shubh · 技术社区 · 6 年前

我的代码

dat <- read.csv("numeric.csv")
dat1 <- na.omit(dat)

##Function to calculate outliers
FindOutliers <- function(data) {
  lowerq = quantile(data)[2]
  upperq = quantile(data)[4]
  iqr = upperq - lowerq #Or use IQR(data)
  # we identify extreme outliers
  extreme.threshold.upper = (iqr * 3) + upperq
  extreme.threshold.lower = lowerq - (iqr * 3)
  result <- which(data > extreme.threshold.upper | data < extreme.threshold.lower)
}


out_dat <- names(dat1)
out_dat <- as.data.frame(out_dat)

for (dat in seq_along(dat1)){
  temp <- FindOutliers(dat)
  out_dat$outlier_count <- length(temp)
}

如果单独传递每一列,我可以得到异常值,但是通过传递整个数据帧,我无法重现相同的结果。

样本数据集

df <- read.table(text = "
    var1 var2 var3 var4 var5 var6 var7
a      1    1   10   10    1    1    1
b     10    1    1    1    1    1    851
c      1    1    1    1    1    1    158
d      1    1011    1    1    1    5    1
e      1    1    55    1    9    1    1
f      1    1    1    1    1    781    1
", header = TRUE)

2 回复 | 直到 6 年前

Zheyuan Li 6 年前

要获取离群值的位置索引(每列):

pos <- lapply(df, FindOutliers)

要获取异常值的数目(每列):

lengths(pos)

使用小样本不是一个好主意。举个例子 df 在样本量为6的情况下,在最后一列中只有851个被检测为异常值,而158个没有被挑选出来。

Benjamin Schlegel 6 年前

你可以用apply来做。

FindOutliers <- function(data) {
  lowerq = quantile(data)[2]
  upperq = quantile(data)[4]
  iqr = upperq - lowerq #Or use IQR(data)
  # we identify extreme outliers
  extreme.threshold.upper = (iqr * 3) + upperq
  extreme.threshold.lower = lowerq - (iqr * 3)
  result <- which(data > extreme.threshold.upper | data < extreme.threshold.lower)
  length(result)
}
apply(df, 2, FindOutliers)

推荐文章

Marc B. · 使用ggplot2创建条形图时“缺少值”

1 年前

deschen · tidyverse与外部向量发生突变,该外部向量的元素是数据帧中的列值

1 年前

Laura · 在Shiny中使用可排序的包拖放名称,这些名称将成为图表

1 年前

Mallikarjun M · 如何使用随机森林进行时间序列预测?

1 年前

ly li · 模型摘要:当表格形状改变时,拟合优度消失

1 年前

C.Robin · 将marginaffects::predictions()的结果连接回main df?

1 年前

monotonic · 如何将格式为“col1+col3+col4”的数据帧的行名转换为一列数字向量“c(1,3,4)”?

2 年前

Shawn Hemelstrand · 为什么我的自定义errorbar函数不能在R中工作?

2 年前

RoyBatty · 统计每个字符在整个数据集中出现的次数

2 年前

stats_noob · R: 记录某个“行为”发生的循环的索引?

2 年前