代码之家 › 专栏 › 技术社区 › user3243499

无火花依赖的模型导出如何工作?

pmml apache-spark-mllib apache-spark

0

user3243499 · 技术社区 · 6 年前

有人能用简单的语言解释一下火花模型是怎样的吗? 输出工作不依赖于火花簇预言?

我的意思是,如果我们在ML管道培训中使用诸如ml.feature.stopWordRemover之类的Spark函数,并以例如pmml格式导出它,那么在没有Spark安装的生产环境中部署时,该函数是如何重新生成的。可能是我们使用jpmml的时候。我浏览了PMML维基页面 here 但它只是简单地解释了PMML的结构。但是,没有提供功能描述。

欢迎提供任何文章链接。

1 回复 | 直到 6 年前

1

user1808924 6 年前

请试验一下 JPMML-SparkML 图书馆(或其) PySpark2PMML 或 Sparklyr2PMML 前端),看看具体是如何不同的阿帕奇火花变压器和模型映射到PMML标准。

例如,PMML标准不提供专门的“删除停止字”元素。相反,所有低级文本操作都是使用通用的 TextIndex 和 TextIndexNormalization 元素。停止字的删除被表示为/实现为一个regex转换,在该转换中,它们被简单地替换为空字符串。要评估这样的PMML文档,您的运行时必须只提供基本的regex功能——绝对不需要ApacheSark运行时或它的Transformer和ModelAlgorithms/Classes。

从ApacheSparkML到PMML的翻译工作异常出色(例如,覆盖范围比其他翻译方法(如MLEAP)要好得多)。