|
|
1
3
我认为澄清一些常见的自然语言处理任务将有助于回答您的问题。 柠檬化 是在给定单词的不同屈折变化的情况下查找规范单词的过程。例如,run、runs、ran和running是相同词素的形式:run。如果你要柠檬化 跑 , 跑 和 跑 输出将是 跑 . 在你的例句中,注意它是如何进行线性化的 方法 到 意思是 . 考虑到这一点,听起来你想要执行的任务并不是柠檬化。用一个愚蠢的反例来巩固这个观点:假设引理“pm”的不同屈折是什么:pming,pmed,pms?这些都不是真话。
听起来你的任务可能更接近
命名实体识别
(NER),你也可以在spaCy中这样做。要遍历已解析文档中检测到的实体,可以使用
根据您给出的句子,spacy(2.0.5版)无法检测任何实体。如果将“PM”替换为“P.M.”,它将作为一个实体检测,但作为一个GPE。 最好的做法取决于您的任务,但如果您想要对“PM”实体进行所需的分类,我会查看 setting entity annotations . 如果你想从一大堆文件中找出每一个提到“PM”的地方, use the matcher in a pipeline . |
|
|
2
0
当我在nltk上运行首相引理时。wordnet(也使用它)我得到:
它保持首字母缩略词相同,所以也许你想检查这个词。引理(),根据上下文给你一个不同的ID? |
|
|
jlrl · 如何将自定义本地标记化器函数导入SpaCy配置文件 2 年前 |
|
|
Kaiser · Space用于命名实体识别(NER)的损失函数是什么 2 年前 |
|
|
Lau Kumra · 如何为货币重新训练现有spacy-NER模型 7 年前 |
|
|
Abhishek Ram · 如何在Spacy中添加其他货币字符 7 年前 |
|
|
max · 我怎样才能得到作为某个动词宾语的名词从句? 7 年前 |
|
|
Thoc theodox · Spacy培训多线程CPU使用率 7 年前 |