1
0
编辑:(在撰写本文的最后,我意识到您计划使用R,我所有的算法建议都基于python实现,但我希望您仍然可以从答案中获得一些想法) 一般来说,这被认为是 NER (命名实体识别)问题。我正在我的工作中处理类似的问题。 这篇文章有什么一般结构吗?例如,实体名称通常出现在第一句中吗?这可能是一种简化启发式搜索或基于词典(例如已知产品)的搜索的方法。 注释是禁止的吗?
如果你只需要一个你关心的标签,一周的标签可能就是你所需要的。我正致力于在非结构化句子中发现品牌名称,我们在一周的注释和培训中做得很好
CRF
(条件随机场)模型。看见
[ 编辑 ] 对于注释,我使用了一种变体生物标记方案。 这是一句典型的句子:“我们会喜欢我们社区的维多利亚的秘密”,当被标记时会是这样的。
O表示的词是: O 我关心的实体的外部(品牌)。B代表 B 实体短语和I表示的开始 我 实体短语的nside。 在您的情况下,您似乎希望将制造商和模型项分开。所以你可以使用像B-MAN,I-MAN,B-MOD,I-MOD这样的标签。以下是注释的示例:
当然,一个模型的制造商可以在其名称中包含多个单词,因此使用I-MOD和I-MAN标记来捕获这些单词(参见上面的示例) 看见 this link (ipython笔记本)有关标记序列如何寻找我的完整示例,我的工作基于此。 建立一本大词典我们放弃了互联网,使用或拥有数据,从合作伙伴那里获得数据库。并建立一个巨大的字典,作为CRF和一般搜索的功能。看见 ahocorosick 用于python中基于trie的快速关键字搜索。 希望这能有所帮助! |