![]() |
1
288
您可以使用sklearn包及其相关的预处理实用程序来规范化数据。
|
![]() |
2
515
一个简单的方法就是 :(这里我想使用均值归一化)
要使用最小最大规格化:
Edit:为了解决一些问题,需要说明Pandas在上面的代码中自动应用了按列的函数。 |
![]() |
3
60
根据这篇文章: https://stats.stackexchange.com/questions/70801/how-to-normalize-data-to-0-1-range 您可以执行以下操作:
你不必一直担心你的价值观是消极的还是积极的。值应该很好地分布在0和1之间。 |
![]() |
4
45
或者更简洁:
|
![]() |
5
35
如果您喜欢使用sklearn包,可以使用pandas保留列和索引名
|
![]() |
6
30
可以创建要规范化的列列表
然而 相反的 ,选择一个列列表 不要
|
![]() |
7
29
简单就是美丽:
|
![]() |
8
26
规范化方法的详细示例
参考文献: Wikipedia: Unbiased Estimation of Standard Deviation 示例数据
使用熊猫进行归一化(给出无偏估计)标准化时,我们只需减去平均值,然后除以标准差。
对sklearn有偏见的估计是否会降低机器学习的能力?
sklearn.preprocessing.scale 说明使用有偏估计不太可能影响机器学习算法的性能,我们可以安全地使用它们。 根据官方文件:
最小-最大标度中没有标准差计算。所以大熊猫和大熊猫的结果是一样的。
|
![]() |
9
13
我认为在熊猫身上更好的方法就是
编辑 如果数据框中出现负数,则应改用负数
|
![]() |
10
11
桑德曼和普拉文给出的解决方案非常好。唯一的问题是,如果在数据框的其他列中有分类变量,则此方法需要进行一些调整。 我对这类问题的解决方案如下:
|
![]() |
11
8
您可能希望一些列被规范化,而其他列保持不变,就像一些数据标签或分类列保持不变的回归任务一样,因此我建议您使用这种pythonic方式(它是@shg和@Cina answers的组合):
|
![]() |
12
6
这只是简单的数学。答案应该如下所示。
|
![]() |
13
4
|
![]() |
14
3
这是如何使用列表理解按列执行的:
|
![]() |
15
2
从pandas的文档中,DataFrame结构可以将一个操作(函数)应用到自身。
您可以应用自定义函数来操作数据帧。 |
![]() |
16
2
|
![]() |
18
0
你可以在一条线上完成
它取每一列的平均值,然后从每一行中减去它(平均值)(特定列的平均值仅从其行中减去),然后仅除以平均值。最后,我们得到的是标准化的数据集。 |
![]() |
19
0
输出值将在0和1之间。 |
![]() |
20
-2
如果您的数据是正倾斜的,那么规范化的最佳方法是使用日志转换:
|
![]() |
serlingpa · 如何准备我的数据以避免无法推断频率 1 年前 |
![]() |
Guillaume · 使用操作从Python列表创建numpy数组 2 年前 |
![]() |
mikanim · 改进二维余弦函数的numpy功能 2 年前 |
![]() |
Klimt865 · 在Python中将数组列表转换为列表列表 2 年前 |
![]() |
Lynn · 如果列包含Python中的特定字符串,则从列中删除值 2 年前 |
![]() |
Jan Hrubec · 选择numpy数组的前n个元素 2 年前 |