代码之家  ›  专栏  ›  技术社区  ›  user4660280

使用我自己的标记语料库进行NLTK词性标记?

  •  1
  • user4660280  · 技术社区  · 6 年前

    我正在尝试使用NLTK为Dothraki语言编写一个基本的词性标记。与棕色语料库相似,我有自己的语料库。包含单词及其相关词类的txt文件。例如

    Anha/PRP vidrik/VBP khalasares/NN anni/NN jim/NN

    我想做的是将语料库加载到NLTK中,并能够看到单词旁边的词类,类似于Brown语料库的做法。这就是我正在做的:

    from nltk.corpus.reader import TaggedCorpusReader
    
    corpus_root = '...'
    dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".*", ".txt")
    print (dothraki_corpus_tagged.tagged_sents('dt01.txt'))
    

    但我的结果是:

    [[('Anha/PRP', None), ('vidrik/VBP', None), ('khalasares/NN', None), ('anni/NN', None), ('jim/NN', None)]]
    

    而不是

    [[('Anha', 'PRP'), ('vidrik', 'VBP') ...]]
    
    1 回复  |  直到 6 年前
        1
  •  2
  •   user4660280 user4660280    6 年前

    所以我现在觉得有点傻,但我只需从TaggedCorpusReader参数中删除“.*”就可以得到我想要的东西。所以我现在得到的是:

    dothraki_corpus_tagged = TaggedCorpusReader(corpus_root, ".txt")
    print (dothraki_corpus_tagged.tagged_sents('dothraki_01.txt'))