代码之家  ›  专栏  ›  技术社区  ›  user3403324

为什么关注多维数据的方差/协方差结构是好的?

  •  0
  • user3403324  · 技术社区  · 10 年前

    为什么关注多维数据的方差/协方差结构是好的?

    1 回复  |  直到 9 年前
        1
  •  0
  •   Vlad    10 年前

    这是因为你的数据通常是由高斯分布描述的,高斯分布由协方差矩阵和均值(不要忘记均值!)参数化。对于d维高斯,有d均值和d*d/2+d/2协方差值。所以可能有很多参数需要学习。高斯分布是最简单的模型之一。选择一个更复杂的模型,你会被参数包围。

    例如,可以为您提供一组带有皮肤和背景对象的图像,并且您想知道如何使用简单的Gaussain分布来建模皮肤颜色与背景(可能您想创建皮肤检测器)。因为颜色是三维的,所以它不是那么简单,所以你会有3个均值(r,g,b)和3x3对称协方差矩阵,有6个独立的参数。因此,第一个违反直觉的结论是,皮肤由rob颜色空间中的9个参数描述。我打赌大多数人只会选择3(手段)。

    事实上,如果你计算协方差矩阵,你可以发现更多违反直觉的事实,比如皮肤红-绿协方差特别低,皮肤的红-蓝协方差与背景的红-蓝色协方差有很大不同。最后,很容易用矩阵和矩阵表示来计算协方差:cov=sum(v*v T )/n、 其中v=数据平均值;

    最后,为了减少参数的数量,可以考虑一些降维方法,如PCA、因子分析和K-means。