1
23
你要找的通常被称为 Sentiment Analysis . 通常,情绪分析无法处理微妙的微妙之处,如讽刺或讽刺,但如果你将大量数据投入其中,效果会相当不错。 情绪分析通常需要相当多的预处理。至少是标记化技术、句子边界检测和部分语音标记。有时,句法分析可能很重要。做得好是计算语言学研究的一个完整分支,我不会建议你提出自己的解决方案,除非你花时间先研究这个领域。 OpenNLP有一些工具来帮助情绪分析,但是如果你想要更严重的事情,你应该研究 LingPipe 工具包。它有一些内置的SA功能和 tutorial . 您可以根据自己的一组数据对其进行培训,但不要认为这完全是微不足道的:—)。 这个学期的谷歌搜索可能也会给你一些资源。如果您有任何更具体的问题,只需提问,我会密切关注nlp标签;-) |
2
6
情绪分析的一些方法使用其他文本分类任务中流行的策略。最常见的是把你的电影评论转换成一个词向量,然后把它作为训练数据输入分类器算法。最流行的数据挖掘包可以在这里帮助您。你可以看看这个 tutorial on sentiment classification 演示如何使用开放源码进行实验 RapidMiner toolkit . 顺便说一下,有一个 good data set 提供用于与电影评论的检测意见相关的研究目的。它基于IMDB用户评论,您可以检查许多 related research work 以及他们如何使用数据集。 值得一提的是,这些方法的有效性只能从统计学的角度来判断,所以你可以假设会有错误的分类和难以发现观点的情况。正如在这条线索中已经注意到的,发现诸如讽刺和讽刺之类的事情确实非常困难。 |