代码之家 › 专栏 › 技术社区 › Hews

字典的python列表理解

nltk lambda python

-1

Hews · 技术社区 · 6 年前

我来自爪哇/ C,我试着用线理解来工作。我有以下代码,但似乎无法获得与工作等效的行理解。

stop_words = set(nltk.corpus.stopwords.words('english'))

tokenizer = nltk.tokenize.RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(text)

token_map = {}

for token in tokens:
    token = token.lower()
    if english_dict.check(token):
        if token not in stop_words:
            if token in token_map:
                token_map[token] += 1
            else:
                token_map[token] = 1

sorted_map = sorted(token_map.items(), key=operator.itemgetter(1))

return sorted_map

2 回复 | 直到 6 年前

Ali Shahrivarian 6 年前

你可以这样做:

tokens = tuple(map(str.lower,tokens))
token_map = {token: tokens.count(token)
             for token in set(tokens)
             if english_dict.check(token) and token not in stop_words}
sorted_map = sorted(token_map.items(), key=operator.itemgetter(1))

编辑:

我的答案是关于你想要什么,但是如果你想要更快更好的解决方案,请参见@alexphall answer。

Alex Hall 6 年前

您可以替换 token_map = {} 之后有:

return Counter(token for token in map(str.lower, tokens)
               if english_dict.check(token)
               if token not in stop_words
               ).most_common()

将此导入添加到文件顶部:

from collections import Counter

推荐文章

user4660280 · 使用我自己的标记语料库进行NLTK词性标记?

6 年前

Swamy · 如何建立深度学习模型,从几个不同的袋子中挑选单词,形成一个有意义的句子[结束]

7 年前

user9092346 · NLTK-标记后连接专有名词

7 年前

Nice · 如何解决nltk中的NotImplementedError。分类I?

7 年前

ArchivistG · 尝试使用re将3个结果打印到表中

7 年前

AKKA · nltk中Jaccard距离度量的实现。指标。距离与数学定义不一致?

7 年前

Ovaflow · 计算句子中的特定单词

7 年前

Sandy · 使用pandas从字符串生成N-gram

7 年前

Freakant · NLTK。检测句子是否是疑问句?

7 年前

Adeeb Abdul Salam · 如何查找NLTK缺少的资源?[副本]

7 年前