1
8
使用 NLTK ,特别是 chapter 7 on Information Extraction. 你说你想提取意义,还有一些语义分析模块,但我认为IE是你所需要的——老实说,现在NLP计算机唯一能处理的领域之一。 参见第7.5节和第7.6节关于命名实体识别(将Manny Ramerez划分为一个人,Dodgers划分为一个体育组织,Houston Astros划分为另一个体育组织,或任何适合您领域的组织)和关系提取。安装了NLTK之后,就可以插入一个NER chunker。从他们的例子中,提取一个地缘政治实体(GPE)和一个人:
注意,您仍然需要知道标记化技术和标记,如前几章中所讨论的,以便为这些IE任务获得正确格式的文本。 |
2
10
你需要看看 Natural Language Toolkit 正是为了这类事情。 本手册的这一部分看起来非常相关: Categorizing and Tagging Words -以下是摘录:
我们看到了 和 是CC,协调连词; 现在 和 完全地 是rb或副词; 对于 在,介词; 某物 是名词;和 不同的 是JJ,形容词。 |
3
7
自然语言处理(NLP)是用来解析自然语言的名称。算法和启发式方法很多,是一个活跃的研究领域。无论您要编写什么算法,它都需要在语料库上进行训练。就像人一样:我们通过阅读别人写的文本(和/或听别人说的句子)来学习语言。 从实际角度来看, Natural Language Toolkit . 对于要编写的代码的理论基础,您可能需要签出 Foundations of Statistical Natural Language Processing 作者:Chris Manning和Hinrich Sch_¼Tze。 |
4
4
这是我最近偶然发现的一本书: Natural Language Processing with Python |
5
3
|
6
1
这是一个非常复杂的话题。一般来说,这类东西属于自然语言处理的范畴,而且往往最棘手。这类工作的困难正是为什么还没有一个完全自动化的系统来处理客户服务之类的问题。 一般来说,处理这些问题的方法确实取决于您的问题域是什么。如果你能从问题域中取胜,你会得到一些非常严重的好处;举例来说,如果你能确定你的问题域是棒球,那么这会给你一个非常好的开端。即便如此,要想得到任何特别有用的东西也需要很多工作。 就其价值而言,是的,现有的语料库将是有用的。更重要的是,确定系统所期望的功能复杂性将是至关重要的;您需要解析简单的句子,还是需要解析复杂的行为?你能把输入限制在一个相对简单的集合中吗? |
7
-1
正则表达式在某些情况下有帮助。下面是一个详细的示例: Whatâs the Most Mentioned Scanner on CNET Forum 它使用正则表达式在CNET论坛帖子中查找所有提到的扫描器。 在post中,使用了这样的正则表达式:
为了匹配以下任一项:
结果,从文章中提取的文本就像,
这个正则表达式解决方案在某种程度上起作用。 |
XYZ · 如何将每行的每个字转换为数据帧的数值 2 年前 |
John · 使用R中的单词嵌入从文本变量预测数字变量 2 年前 |
Sab Garduño · w2v_列中出现错误(trainFile=file_列,modelFile=model,stopWordsFile=file_stopwords)(下面是完整的错误文本) 2 年前 |
Michael W · 从数据帧创建术语频率矩阵的有效方法 2 年前 |