![]() |
1
6
使用类似于 Brill Parser 辨别词类,如名词。然后只提取名词,并按频率排序。 |
![]() |
2
1
好吧,你可以用preg_split来得到单词的列表,以及它们出现的频率,我想这就是你目前所做的工作。
你为什么这么做,是为了搜索网页内容吗?如果是,那么大多数后端数据库都提供某种文本搜索功能,比如MySQL和Postgres都有一个全文搜索引擎,它会自动丢弃那些不重要的单词。我建议您使用正在使用的后端数据库的全文功能,因为它们很可能已经实现了一些满足您要求的功能。 |
![]() |
3
0
有两种“简单”的方法可以解决这样的问题; a) 排除列表(惩罚你认为无用的单词集合) 我不确定这是否是你要找的,但我希望能有帮助。 顺便说一下,我知道上下文文本处理是一个活跃的研究课题,你可能会发现许多项目可能是有趣的。 |
![]() |
Trey · C-易失性指针的使用 7 年前 |
![]() |
Alex · 使用“*args”,关键字参数变为位置参数? 7 年前 |
![]() |
Thamme Gowda · “lambda”关键字的较短替代项? 7 年前 |
![]() |
ldenkewi · 如何在azure搜索中实际使用关键字分析器? 8 年前 |
![]() |
Ander Acosta · Admob不按关键字加载广告 9 年前 |
|
Jackie19 · OCaml中的“更小”关键字(?) 10 年前 |