代码之家  ›  专栏  ›  技术社区  ›  user3243499

无火花依赖的模型导出如何工作?

  •  0
  • user3243499  · 技术社区  · 6 年前

    有人能用简单的语言解释一下火花模型是怎样的吗? 输出工作不依赖于火花簇 预言?

    我的意思是,如果我们在ML管道培训中使用诸如ml.feature.stopWordRemover之类的Spark函数,并以例如pmml格式导出它,那么在没有Spark安装的生产环境中部署时,该函数是如何重新生成的。可能是我们使用jpmml的时候。我浏览了PMML维基页面 here 但它只是简单地解释了PMML的结构。但是,没有提供功能描述。

    欢迎提供任何文章链接。

    1 回复  |  直到 6 年前
        1
  •  1
  •   user1808924    6 年前

    请试验一下 JPMML-SparkML 图书馆(或其) PySpark2PMML Sparklyr2PMML 前端),看看具体是如何不同的阿帕奇火花变压器和模型映射到PMML标准。

    例如,PMML标准不提供专门的“删除停止字”元素。相反,所有低级文本操作都是使用通用的 TextIndex TextIndexNormalization 元素。停止字的删除被表示为/实现为一个regex转换,在该转换中,它们被简单地替换为空字符串。要评估这样的PMML文档,您的运行时必须只提供基本的regex功能——绝对不需要ApacheSark运行时或它的Transformer和ModelAlgorithms/Classes。

    从ApacheSparkML到PMML的翻译工作异常出色(例如,覆盖范围比其他翻译方法(如MLEAP)要好得多)。

    推荐文章