代码之家  ›  专栏  ›  技术社区  ›  Bob van Luijt

如何确定数据库设计中的元字段?

  •  0
  • Bob van Luijt  · 技术社区  · 6 年前

    我正在处理一个非常大的数据集,我想创建一个元表,其中包含有关数据集中列的元数据。

    例如,对于 int 列,我可能想要 total , max-value , average-value , min-value ,等等。因此,具有数百万个年龄记录的列“年龄”将具有一个元表,其中包含:

    total = 1000000
    max-value = 110
    min-value = 4
    average-value = 32
    etcetera...
    

    我有 int , boolean , string , date , float 日期 柱。

    问题 :
    我可以在哪里找到/这些字段的基本元数据列表是什么? 除了以上这些,我还能做什么?

    1 回复  |  直到 6 年前
        1
  •  0
  •   Boris Schegolev    6 年前

    从统计的角度来看, int float 是典型的因变量(图表上的Y轴)。对于那些(在给定集合上)您计算统计值,如算术/几何平均值、中位数、标准差、方差等。

    string , boolean date 通常是独立变量(或回归量-图表上的X轴)。因此,它们不应该被描述。从技术上讲,您可以计算一组布尔值或日期的中位数(您可能认为它们是相关的),但一般来说这没有多大意义。在字符串列上,可以计算字符串的平均长度、字符串中使用的不同字符数,甚至可以计算大小写字母。但我真的不认为这些信息对任何人都有用。