代码之家  ›  专栏  ›  技术社区  ›  Hussain Asghar

是否将文本数据转换为SVMFile格式以用于垃圾邮件分类?

  •  0
  • Hussain Asghar  · 技术社区  · 7 年前

    如何将文本数据转换为LibSVM文件格式,以训练垃圾邮件分类模型。 SVMFiles是否已标记?

    1 回复  |  直到 7 年前
        1
  •  0
  •   user9179787    7 年前

    SVM格式既不是必需的,也不是有用的。在Apache Spark ML示例中使用它,只是因为它可以直接映射到所需的格式。

    SVMFiles是否已标记?

    不一定,但Spark只能读取标记的变体。

    实际上,您应该使用 org.apache.spark.ml.feature 用于从数据中提取相关特征的工具。

    你可以跟随 the documentation 还有一些问题。,