代码之家  ›  专栏  ›  技术社区  ›  Berry Tsakala

nltk/pynltk能“按语言”(即非英语)工作吗?如何工作?

  •  10
  • Berry Tsakala  · 技术社区  · 15 年前

    如何告诉NLTK用特定语言处理文本?

    偶尔我会写一个专门的NLP程序,在非英语(但仍然是印欧语)文本域上做POS标记、标记化等。

    这个问题似乎只涉及不同的语料库,而不是代码/设置的变化: POS tagging in German

    或者,是否有针对python的专门希伯来语/西班牙语/波兰语NLP模块?

    1 回复  |  直到 12 年前
        1
  •  8
  •   Matti Lyra    15 年前

    我不确定您所指的代码/设置更改是什么。NLTK主要依靠机器学习,而“设置”通常是从训练数据中提取出来的。

    当涉及到POS标记时,结果和标记将取决于您使用/训练的标记器。如果你自己训练,你当然需要一些西班牙语/波兰语的训练数据。这可能很难找到的原因是缺乏公开的金标准材料。有很多工具可以做到这一点,但这不是针对Python的( http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/ )。

    nltk.tokenize.punkt.punksentencetokenizer tokenizer将根据多语言句子边界对句子进行tokenize,具体内容可在本文中找到。( http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485 )