1
288
您可以使用sklearn包及其相关的预处理实用程序来规范化数据。
|
2
515
一个简单的方法就是 :(这里我想使用均值归一化)
要使用最小最大规格化:
Edit:为了解决一些问题,需要说明Pandas在上面的代码中自动应用了按列的函数。 |
3
60
根据这篇文章: https://stats.stackexchange.com/questions/70801/how-to-normalize-data-to-0-1-range 您可以执行以下操作:
你不必一直担心你的价值观是消极的还是积极的。值应该很好地分布在0和1之间。 |
4
45
或者更简洁:
|
5
35
如果您喜欢使用sklearn包,可以使用pandas保留列和索引名
|
6
30
可以创建要规范化的列列表
然而 相反的 ,选择一个列列表 不要
|
7
29
简单就是美丽:
|
8
26
规范化方法的详细示例
参考文献: Wikipedia: Unbiased Estimation of Standard Deviation 示例数据
使用熊猫进行归一化(给出无偏估计)标准化时,我们只需减去平均值,然后除以标准差。
对sklearn有偏见的估计是否会降低机器学习的能力?
sklearn.preprocessing.scale 说明使用有偏估计不太可能影响机器学习算法的性能,我们可以安全地使用它们。 根据官方文件:
最小-最大标度中没有标准差计算。所以大熊猫和大熊猫的结果是一样的。
|
9
13
我认为在熊猫身上更好的方法就是
编辑 如果数据框中出现负数,则应改用负数
|
10
11
桑德曼和普拉文给出的解决方案非常好。唯一的问题是,如果在数据框的其他列中有分类变量,则此方法需要进行一些调整。 我对这类问题的解决方案如下:
|
11
8
您可能希望一些列被规范化,而其他列保持不变,就像一些数据标签或分类列保持不变的回归任务一样,因此我建议您使用这种pythonic方式(它是@shg和@Cina answers的组合):
|
12
6
这只是简单的数学。答案应该如下所示。
|
13
4
|
14
3
这是如何使用列表理解按列执行的:
|
15
2
从pandas的文档中,DataFrame结构可以将一个操作(函数)应用到自身。
您可以应用自定义函数来操作数据帧。 |
16
2
|
18
0
你可以在一条线上完成
它取每一列的平均值,然后从每一行中减去它(平均值)(特定列的平均值仅从其行中减去),然后仅除以平均值。最后,我们得到的是标准化的数据集。 |
19
0
输出值将在0和1之间。 |
20
-2
如果您的数据是正倾斜的,那么规范化的最佳方法是使用日志转换:
|
user026 · 如何根据特定窗口的平均值(行数)创建新列? 1 年前 |
rpn · 如何在列[1]中连续第二次出现“0”时返回列[0]的值 1 年前 |
asmgx · 为什么合并数据帧不能按照python中的预期方式工作 1 年前 |
Domarius · 使用loc为多行设置多列值 1 年前 |
msts1906 · 大熊猫向乳胶的适当多品种出口 1 年前 |