代码之家  ›  专栏  ›  技术社区  ›  user3486773

Python机器学习-输入分类数据?

  •  1
  • user3486773  · 技术社区  · 7 年前

    那么,插补分类数据有意义吗?我走远了吗?很抱歉,这是一个比实际的Python编程更实用的理论,但我不确定在哪里发布这类问题。

    1 回复  |  直到 7 年前
        1
  •  4
  •   binjip    7 年前

    我认为答案取决于你的特征。

    用填充缺少的数据 expectation maximization (EM)

    更正式一点说,如果你在性别列中有一个缺失值,但你有一个工资值,EM告诉你P(性别=男性|工资=w0,θ),即在给定工资=w0和θ的情况下,性别为男性的概率,θ是通过最大似然估计获得的参数。

    更简单地说,这可以通过运行性别对工资的回归(使用逻辑回归,因为y变量是分类的)来实现,从而为您提供上述概率。

    视觉上:

    enter image description here

    (这些完全是附加值,但传达了男性工资分配通常高于女性的想法)

    不要归咎于 如果这两个特征之间没有关系,并且您认为丢失的数据可能不是随机丢失的。