![]() |
1
1
1-你可以使用 OneHotEncoder 将分类特征转换为二进制矩阵,如:
如果你有很多种类,这个解决方案可能是不可行的,因为特征矩阵将变得非常大。在这种情况下,我通常所做的如下:如果类别分布不一致,(例如,90%的样本属于5个类别,而其他属于5000个类别),我将所有这5000个类别转换为一个新类别,称为其他类别。现在我只有6个类别,可以像平常一样执行一个热编码。 如果有许多类别,并且样本在类别之间平均分布,则不能删除类别或将它们合并为一个类别。 2-按原样使用。如果你的分类可以处理分类特征,那么你可以直接使用它们。我假设,在数字和分类数据上都可以工作。 3-转换为数值特征。这在大多数情况下是不可能的。假设您的特征值是北、东南、西北等等。在这种情况下,将它们转换成像(0,1)表示北,(1,-1)表示东南和(-1,1)表示西北这样的坐标是可以的。当然,就问题而言,这种转换应该是合乎逻辑的。 |
![]() |
2
0
我建议
一个热编码
很容易通过
然而,检查 this 很棒的教程。如果你想得到更多的幻想 Category Encoders . |
![]() |
July · 如何定义数字间隔,然后四舍五入 1 年前 |
![]() |
user026 · 如何根据特定窗口的平均值(行数)创建新列? 1 年前 |
|
Ashok Shrestha · 需要追踪特定的颜色线并获取坐标 1 年前 |
![]() |
Nicote Ool · 在FastApi和Vue3中获得422 1 年前 |
|
Abdulaziz · 如何对集合内的列表进行排序[重复] 1 年前 |
![]() |
asmgx · 为什么合并数据帧不能按照python中的预期方式工作 1 年前 |