1
74
我使用的方法是
第一种方法的副作用是用值标记四分位数,我认为这是一件“好事”,但如果不是“对你有好处”,或者在评论中提出的有效问题是一个问题,你可以使用版本2。你可以用
或者更快,但在工作方式上稍显模糊,尽管它不再是一个因子,而是一个数值向量:
|
2
68
加载包(如果没有,请先安装)并添加四分位列:
或者,如果要使用dplyr语法:
两种情况下的结果都是:
注意,您不需要预先创建“四分位”列并使用
|
3
17
我将添加
哪个更好(更干净, faster )比我所做的还要多:
但是,请注意,这种方法要求分位数是不同的,例如,它将失败
|
4
6
给:
|
5
5
适应
可能不符合清洁剂的要求,但速度更快,而且只有一条生产线。 在更大的数据集上计时
将此解决方案与
给予:
|
6
4
很抱歉来晚了一点。我想用
结果:
|
7
0
|
8
0
我想提出一个更健壮的版本,因为我在使用
是这样吗? |
9
0
试试这个功能
|
10
-1
|
user1245262 · 筛选Pandas数据帧时出现问题 1 年前 |
Foroand · 熊猫数据帧中的词频计数耗时过长 1 年前 |
user14696236 · 如何为每个对应的列创建一行[重复] 2 年前 |
The Great · 拆分并存储数据帧,但名称基于特定列中的唯一值 2 年前 |
nickolakis · 基于R中的列名复制列 2 年前 |
A. Handler · 有没有办法将数据帧的列与完整列名向量相匹配? 2 年前 |