![]() |
1
3
标准化和标准化(取决于数据源,有时它们是等效使用的,所以我不确定在这种情况下,每一个都是什么意思,但这并不重要)是一个一般性建议,通常在数据或多或少均匀分布的问题中效果很好。然而,根据定义,异常检测并不是那种问题。如果您有一个数据集,其中大多数示例都属于类
我没有异常检测的经验,但我有一些不平衡数据集的经验。您可以考虑某种形式的“加权归一化”,其中每个特征的平均值和方差的计算使用与类中示例数成反比的值进行加权(例如。
为什么? 它不起作用可能会产生一些有用的见解)。 |
![]() |
2
1
训练集中只有零(或任何其他常量值)的任何特征对于任何ML模型都没有用处。你应该丢弃它们。模型无法从中学习任何信息,因此测试数据是否具有一些非零值无关紧要。
|