代码之家  ›  专栏  ›  技术社区  ›  Alex Weinstein

NLP:定性“正”与“负”句

  •  13
  • Alex Weinstein  · 技术社区  · 16 年前

    我需要你的帮助,以确定最佳的方法来分析行业特定的句子(即电影评论)“积极”与“消极”。我以前见过opennlp这样的库,但它太低级了——它只提供了基本的句子结构;我需要的是更高级的结构: -希望有单词表 -希望能在我的数据集上训练

    谢谢!

    2 回复  |  直到 7 年前
        1
  •  23
  •   Aleksandar Dimitrov    16 年前

    你要找的通常被称为 Sentiment Analysis . 通常,情绪分析无法处理微妙的微妙之处,如讽刺或讽刺,但如果你将大量数据投入其中,效果会相当不错。

    情绪分析通常需要相当多的预处理。至少是标记化技术、句子边界检测和部分语音标记。有时,句法分析可能很重要。做得好是计算语言学研究的一个完整分支,我不会建议你提出自己的解决方案,除非你花时间先研究这个领域。

    OpenNLP有一些工具来帮助情绪分析,但是如果你想要更严重的事情,你应该研究 LingPipe 工具包。它有一些内置的SA功能和 tutorial . 您可以根据自己的一组数据对其进行培训,但不要认为这完全是微不足道的:—)。

    这个学期的谷歌搜索可能也会给你一些资源。如果您有任何更具体的问题,只需提问,我会密切关注nlp标签;-)

        2
  •  6
  •   user229044    7 年前

    情绪分析的一些方法使用其他文本分类任务中流行的策略。最常见的是把你的电影评论转换成一个词向量,然后把它作为训练数据输入分类器算法。最流行的数据挖掘包可以在这里帮助您。你可以看看这个 tutorial on sentiment classification 演示如何使用开放源码进行实验 RapidMiner toolkit .

    顺便说一下,有一个 good data set 提供用于与电影评论的检测意见相关的研究目的。它基于IMDB用户评论,您可以检查许多 related research work 以及他们如何使用数据集。

    值得一提的是,这些方法的有效性只能从统计学的角度来判断,所以你可以假设会有错误的分类和难以发现观点的情况。正如在这条线索中已经注意到的,发现诸如讽刺和讽刺之类的事情确实非常困难。

    推荐文章