|
|
1
288
您可以使用sklearn包及其相关的预处理实用程序来规范化数据。
|
|
|
2
515
一个简单的方法就是 :(这里我想使用均值归一化)
要使用最小最大规格化:
Edit:为了解决一些问题,需要说明Pandas在上面的代码中自动应用了按列的函数。 |
|
|
3
60
根据这篇文章: https://stats.stackexchange.com/questions/70801/how-to-normalize-data-to-0-1-range 您可以执行以下操作:
你不必一直担心你的价值观是消极的还是积极的。值应该很好地分布在0和1之间。 |
|
4
45
或者更简洁:
|
|
|
5
35
如果您喜欢使用sklearn包,可以使用pandas保留列和索引名
|
|
|
6
30
可以创建要规范化的列列表
然而 相反的 ,选择一个列列表 不要
|
|
|
7
29
简单就是美丽:
|
|
|
8
26
规范化方法的详细示例
参考文献: Wikipedia: Unbiased Estimation of Standard Deviation 示例数据
使用熊猫进行归一化(给出无偏估计)标准化时,我们只需减去平均值,然后除以标准差。
对sklearn有偏见的估计是否会降低机器学习的能力?
sklearn.preprocessing.scale 说明使用有偏估计不太可能影响机器学习算法的性能,我们可以安全地使用它们。 根据官方文件:
最小-最大标度中没有标准差计算。所以大熊猫和大熊猫的结果是一样的。
|
|
|
9
13
我认为在熊猫身上更好的方法就是
编辑 如果数据框中出现负数,则应改用负数
|
|
|
10
11
桑德曼和普拉文给出的解决方案非常好。唯一的问题是,如果在数据框的其他列中有分类变量,则此方法需要进行一些调整。 我对这类问题的解决方案如下:
|
|
|
11
8
您可能希望一些列被规范化,而其他列保持不变,就像一些数据标签或分类列保持不变的回归任务一样,因此我建议您使用这种pythonic方式(它是@shg和@Cina answers的组合):
|
|
|
12
6
这只是简单的数学。答案应该如下所示。
|
|
|
13
4
|
|
|
14
3
这是如何使用列表理解按列执行的:
|
|
|
15
2
从pandas的文档中,DataFrame结构可以将一个操作(函数)应用到自身。
您可以应用自定义函数来操作数据帧。 |
|
16
2
|
|
|
18
0
你可以在一条线上完成
它取每一列的平均值,然后从每一行中减去它(平均值)(特定列的平均值仅从其行中减去),然后仅除以平均值。最后,我们得到的是标准化的数据集。 |
|
|
19
0
输出值将在0和1之间。 |
|
20
-2
如果您的数据是正倾斜的,那么规范化的最佳方法是使用日志转换:
|
|
|
Cam · Pandas列表日期到日期时间 8 月前 |
|
|
Bijan · Pandas批量更新帐户字符串 9 月前 |
|
Kernel · 进入熊猫的定义。系列super().reindex 9 月前 |
|
|
adventurous_chip_55 · 如何引爆柱子 9 月前 |
|
|
RKIDEV · Panda迭代行并将第n行值乘以下一(n+1)行值 10 月前 |