代码之家  ›  专栏  ›  技术社区  ›  iahmed

使用Python的数据帧中缺少数据

  •  0
  • iahmed  · 技术社区  · 7 年前

    [ Dataframe

    你好

    附件是数据,你能帮我处理“Outlet\u Size”列中缺失的数据吗。

    谢谢

    3 回复  |  直到 7 年前
        1
  •  4
  •   user8508347 user8508347    7 年前

    关于缺失数据的一些指导原则。

    A、 如果列中缺少超过40%的数据,请删除它!(同样,40%取决于您处理的问题类型!如果数据非常关键或非常微不足道,您可以忽略它)。

    B、 检查是否有方法可以从互联网上估算缺失的数据。你看到的是物品重量!如果有的话,你可以知道你正在处理的是哪种产品,而不是散列编码的 Item_Identifier

    MCAR:完全随机缺失。如果数据丢失,这是理想的情况。

    df.dropna() 或者用无穷大填充它们,或者用平均值填充它们 df["value"] = df.groupby("name").transform(lambda x: x.fillna(x.mean())) value 来自数据帧 df 按类别 name 价值

    E、 除了删除缺失值,用均值或中位数替换外,还有其他高级回归技术可以用来预测缺失值并填充它,例如(小鼠:通过链式方程进行多元插补),您应该浏览并阅读更多关于高级插补技术将有帮助的地方。

        2
  •  0
  •   Adept    3 年前

    公认的答案真的很好。

        3
  •  0
  •   Ailurophile    3 年前

    “Outlet\u Size”列包含分类数据,因此不要删除数据,而是使用度量填充数据。

    由于它是分类数据,使用集中趋势、模式的度量。

    代码:

    Dataframe['Outlet_Size'].mode()
    Datarame['Outlet_Size'].fillna(Dataframe['Outlet_Size'].mode(), inplace=True)