代码之家  ›  专栏  ›  技术社区  ›  TheSean

如何在数据仓库中实现数据质量和验证规则?

  •  1
  • TheSean  · 技术社区  · 15 年前

    我正在开发一个数据仓库,作为我公司企业应用程序套件的一部分。因此,我已经学习了很多关于DW概念的知识,但是规则引擎似乎很难实现,而且我找不到关于各种实现方法的更多信息。这些规则的重点是验证数据质量,并在达到某些业务指标时发出警报(例如,当月销售额为XX.XX美元)。

    我们的应用程序需要为每个客户机定制,所以我想让规则通用化。实现规则引擎的一些方法是什么?

    1. 现成的工具?(我将重新分配,因此通常不会很好地工作)
    2. 框架/API
    3. 设计创造我们自己的父亲
    4. 其他想法

    谢谢。

    1 回复  |  直到 8 年前
        1
  •  2
  •   Damir Sudarevic    15 年前

    这可能有助于将其视为几个独立的系统协同工作,而不是一个“大引擎”负责所有事情。

    当涉及到“业务指标”时,请看 KPIs (关键绩效指标)。分析引擎( MS-SSAS ,请 Pentaho-Mondrian 等)允许对关键绩效指标进行简单的定义和表示(仪表盘)。如果你自己开发,你可能仍然会对这个概念有一个概念。

    数据质量主要是“操作系统”的责任,也就是收集数据的地方。如果垃圾到达DW,就太晚了。使用 data profiling tools 要了解源数据的外观,必须在源数据上强制实施数据质量。

    在DW加载过程中,您可以使用逐步的ECCD(提取、清理、符合、交付)方法来实现某些“数据标准”。ETL工具 MS-SSIS , Pentaho-Kettle ,请 Oracle Data Itegrator 等等)旨在帮助解决这一问题。

    关于规则引擎,请看 inrule , ILOG , Fico , Corticon ,请 Jboss Drools 等等。这些是“独立的系统”,当与操作系统协调时,可以用来强制执行业务规则。执行业务规则通常会提高数据质量。你可以下载口水,并开始修补相当快,其他供应商也允许一些免费下载。