代码之家  ›  专栏  ›  技术社区  ›  Darzen

无法使用nltk从单词序列中删除停止单词

  •  0
  • Darzen  · 技术社区  · 10 年前

    我有一个单词序列,我想使用nltk从中删除所有停止单词。相同的代码段如下所示:

    #tokensgenerated has the sequence of words
    for word in tokensgenerated:
        if(word not in nltk.corpus.stopwords.words('english')):
              #do something with the word
    

    然而 我收到一个运行时错误。

    “LookupError:raise除外”

    我已经导入了nltk。

    我缺什么了?

    1 回复  |  直到 10 年前
        1
  •  0
  •   alvas    10 年前

    首先下载并确保 stopwords 已下载,请参阅 http://www.nltk.org/data :

    >>> import nltk
    >>> packages = ['stopwords']
    >>> downloader.download(packages)
    >>>
    >>> stop = stopwords.words('english')
    >>> sent = 'this is a foobar sentence'.split()
    >>> [word for word in sent if word not in stop]
    ['foobar', 'sentence']