代码之家  ›  专栏  ›  技术社区  ›  abu

“生命线”中的Cox-PH模型违反了虚拟变量的假设

  •  0
  • abu  · 技术社区  · 6 年前

    我正在使用 lifelines 库估计Cox-PH模型。对于回归,我有许多分类特征,我对每个特征进行一次热编码并删除一列,以避免多重共线性问题(虚拟变量陷阱)。我没有附上代码作为例子可以类似的一个在文档中给出 here

    通过跑步 cph.check_assumptions(data) 我收到每个虚拟变量违反假设的信息:

    Variable 'dummy_a' failed the non-proportional test: p-value is 0.0063.
    Advice: with so few unique values (only 2), you can try `strata=['dummy_a']` in the call in `.fit`. See documentation in link [A] and [B] below.
    

    我应该如何理解关于单个分类特征的多个虚拟变量的建议?我应该把它们都加到地层中吗?

    如有任何意见,我将不胜感激:)

    0 回复  |  直到 6 年前
        1
  •  1
  •   Cam.Davidson.Pilon    5 年前

    @阿布,你的问题在文档中提出了一个明显的缺口——如果虚拟变量违反比例检验怎么办。在这种情况下,我建议 dummying变量,并将原始列添加为分层变量,例如: fit(..., strata=['dummy'])

    推荐文章