代码之家  ›  专栏  ›  技术社区  ›  Atanu chatterjee

利用PyS点火构建流媒体数据流的SPARK ML流水线模型

  •  0
  • Atanu chatterjee  · 技术社区  · 6 年前

    我是数据科学的新手,想寻求帮助。

    我想从结构化流数据流中构建SpML ML管道模型,但是会产生一些错误。请参阅下面的代码段和错误消息。

    注意:我们已经离线训练了我们的模型,只想从结构化流数据文件中建立评分模型。

    代码:

    pipelineModel= PipelineModel.load('/model/path/')
    scoringDf = pipelineModel.transform(streamingDf) 
    

    错误消息:

    Py4JJavaError: An error occurred while calling o1910.transform.
    : org.apache.spark.sql.AnalysisException: Queries with streaming sources must be executed with writeStream.start();;
    Kafka
    

    我们使用的是DSE Casdand RV V 6,它有火花2.2.1。因此,任何人都建议将预先训练好的流水线对象转换成流数据流。 火花2.2 ?

    请给我提供一些输入。

    1 回复  |  直到 6 年前
        1
  •  -1
  •   Notrius    6 年前

    您试图在流结束之前进行转换。流是一个不同的概念,这里假设您正在处理批处理数据,其中一步完成所有的事情。

    在调用转换方法之前,尝试在流计算上下文中添加流变量上下文。

    你可以阅读 here 了解火花流计算。