代码之家  ›  专栏  ›  技术社区  ›  Arshdeep

如何从文本中找到关键词(有用的词)?

  •  2
  • Arshdeep  · 技术社区  · 14 年前

    我在做一个实验项目。

    我想要达到的是,我想找到文本中的关键词是什么。

    我要做的是列出一个单词在文本中出现的次数,按最常用的单词排序。

    你们能给我一些好的逻辑来做吗,这样它总能找到好的相关关键词?

    3 回复  |  直到 14 年前
        1
  •  6
  •   Mark Baker    14 年前

    使用类似于 Brill Parser 辨别词类,如名词。然后只提取名词,并按频率排序。

        2
  •  1
  •   GordonM    14 年前

    好吧,你可以用preg_split来得到单词的列表,以及它们出现的频率,我想这就是你目前所做的工作。

    你为什么这么做,是为了搜索网页内容吗?如果是,那么大多数后端数据库都提供某种文本搜索功能,比如MySQL和Postgres都有一个全文搜索引擎,它会自动丢弃那些不重要的单词。我建议您使用正在使用的后端数据库的全文功能,因为它们很可能已经实现了一些满足您要求的功能。

        3
  •  0
  •   posdef    14 年前

    有两种“简单”的方法可以解决这样的问题; a) 排除列表(惩罚你认为无用的单词集合)

    我不确定这是否是你要找的,但我希望能有帮助。 顺便说一下,我知道上下文文本处理是一个活跃的研究课题,你可能会发现许多项目可能是有趣的。