代码之家 › 专栏 › 技术社区 › VirtuosiMedia

NLP中专有名词的识别策略

part-of-speech named-entity-recognition nlp

VirtuosiMedia · 技术社区 · 16 年前

我有兴趣了解更多 Natural Language Processing (nlp)我很好奇目前是否有任何策略来识别文本中不基于词典识别的专有名词?此外,是否有人能解释或链接到解释当前基于词典的方法的资源?谁是关于NLP的权威专家,或者关于这个主题的权威资源是什么?

8 回复 | 直到 10 年前

Yuval F 16 年前

确定文本中一个词的正确词性的任务称为 Part of Speech Tagging . 这个 Brill tagger 例如,使用字典(词汇)单词和上下文规则的混合。我相信这项任务的一些重要的初始字典单词是停止词。一旦你有了(大部分是正确的)词类,你就可以开始构建更大的结构。 This industry-oriented book 区分识别名词短语(NPS)和识别命名实体。关于课本: Allen's Natural Language Understanding 是一本很好但有点过时的书。 Foundations of Statistical Natural Language Processing 是统计NLP的一个很好的介绍。 Speech and Language Processing 更严格一点,也许更权威一点。 The Association for Computational Linguistics 是计算语言学的领先科学团体。

Fabian Steeg 12 年前

除了基于字典的方法,我还想到了另外两个方法:

基于模式的方法(简单形式:任何大写的都是专有名词)
机器学习方法(在训练语料库中标记专有名词并训练分类器)

这个领域主要被称为 命名实体提取 通常被认为是 信息提取 . NLP不同领域的良好起点通常是 Oxford Handbook of Computational Linguistics :

Oxford Handbook of Computational Linguistics http://ukcatalogue.oup.com/images/en_US/covers/medium/9780198238829_140.jpg

user18015 16 年前

尝试搜索“命名实体识别”——这是NLP文献中用于此类事情的术语。

MarkusQ 16 年前

这取决于你所说的基于词典的意思。

例如,一种策略是采取不是在字典里,试着假设它们是专有名词。如果这导致了一个合理的分析,考虑临时验证的假设并继续进行,否则就得出结论:它们不是。

其他想法:

在主语位置上,任何没有限定词的简单主语都是很好的候选者。
介词短语同上
在任何职位上,所有格决定者的基础(例如“鲍勃的妹妹”中的鲍勃)都是一个很好的候选人。

——MarkusQ

WDong 12 年前

一些工具包建议: 1。opennlp:您的任务有一个命名实体识别组件 2。Lingpipe:也是它的NER组件三。斯坦福NLP套餐:学术用途的绝佳套餐,可能不适合商业用途。 4。一个python nlp包

Gunjan 11 年前

如果你有“谁是比尔·盖茨”这样的句子如果你把一部分语言标记应用到它上面。它的答案是

“谁/wp是/vbz比尔/nn盖茨/nns?。

你可以在网上试试这个 http://cst.dk/online/pos_tagger/uk/

所以你得到了这个句子中所有的名词。现在您可以用一些算法轻松地提取这个名词。如果您使用的是自然语言处理,我建议使用python。它有NLTK(自然语言工具包),您可以使用它。

Manthan Dave 11 年前

如果您对自然语言处理的实现感兴趣,而python是您的编程语言,那么这可能是一个非常有用的资源: http://www.youtube.com/watch?v=kKe4M4iSclc

Syeful Islam 10 年前

虽然这是孟加拉语,但它可以画出一个通用的程序来识别专有名词。所以我希望这对你有帮助。请检查以下链接: http://www.mecs-press.org/ijmecs/ijmecs-v6-n8/v6n8-1.html

推荐文章

XYZ · 如何将每行的每个字转换为数据帧的数值

2 年前

August Nilsson · 计算R中两个单词嵌入之间的文本相似性时,`select()`不处理列表'

2 年前

John · 使用R中的单词嵌入从文本变量预测数字变量

2 年前

Mucida · BERT2:如何使用GPT2LMHeadModel开始一个句子,而不是完成它

2 年前

Sab Garduño · w2v_列中出现错误(trainFile=file_列,modelFile=model,stopWordsFile=file_stopwords)(下面是完整的错误文本)

2 年前

Bennet Weber · 有没有办法用python找到一个单词的反义词(意思相反的单词)?你知道数据集或nlp工具包吗?

2 年前

Michael W · 从数据帧创建术语频率矩阵的有效方法

3 年前

Moodhi · 计算GEC的F分数

3 年前

user18628526 · 什么时候使用Word2vec和一大堆单词?

3 年前

Merve · 如果我想返回列表上的一个操作,但当它返回空值时它保持不变,我怎么说呢?

3 年前