代码之家  ›  专栏  ›  技术社区  ›  Misconstruction

大型数据集LDA的替代方案

  •  1
  • Misconstruction  · 技术社区  · 9 年前

    我正在分析一个R基因表达的大数据集,有100个样本和50000个基因。

    我已经对样本间模式进行了一些非常有用的PCA预测。现在,我想对数据进行一些预测,最大化我对样本的标签之间的差异。

    通常我会用 lda() 函数 MASS 包裹然而,这太慢了,而且内存密集。

    如果目标是生成样本的投影,使已知标签之间的差异最大化,那么有哪些好的替代方案 lda() ?

    谢谢

    2 回复  |  直到 9 年前
        1
  •  1
  •   Backlin    9 年前

    我们在对问题的评论中的讨论摘要

    线性判别分析不适用于具有比观测值更多特征的数据集,因此需要某种形式的正则化。如果你想做分类,但主要对预测模式感兴趣,而不是预测本身,你可以使用偏最小二乘判别分析(PLSDA)。

    然而,在您的案例中,PLSDA的成分可能很难解释,因为它们将包含每个基因一个系数,但相信所有50000个基因都与您正在研究的表型相关似乎是不现实的。我更喜欢的另一种方法是 nearest shrunken centroids elastic net 产生稀疏模型(即,它们只保留最好的基因,而丢弃那些无关紧要的基因)。

        2
  •  0
  •   orange1    9 年前

    您可以在数据集的样本上运行LDA模型。