代码之家  ›  专栏  ›  技术社区  ›  shakthydoss

是否有任何数据挖掘/文本挖掘/机器学习技术来为给定文档找到最合适的标签[关闭]

  •  -3
  • shakthydoss  · 技术社区  · 11 年前

    假设我有一组庞大的文档,这些文档用列表示在关系表中

        ID (unique identifier)
        Title (255 characters)
        Description (5000 characters)
        Category (predefined meta-data )
        Additional Notes (1000 characters )
    

    我想为文档表中的每一行添加一个或多个标记。这里的标签是指告诉读者文档内容的一个单词或一组单词。

    是否有任何数据挖掘/文本挖掘/机器学习技术或方法可以帮助我在没有人为干扰的情况下为给定的文档找到最合适的标签。

    1 回复  |  直到 11 年前
        1
  •  1
  •   Andrey Teterin    11 年前

    一种简单可行的方法:对于给定的文档,计算 TF-IDF 对每个单词进行测量,并选择前N个单词作为标签(或将候选单词减少一些阈值)。 此外,在您的情况下,对“标题”和“类别”字段中的单词使用经验增强系数是合理的。