代码之家 › 专栏 › 技术社区 › Berry Tsakala

nltk/pynltk能“按语言”(即非英语)工作吗?如何工作?

nltk nlp python

Berry Tsakala · 技术社区 · 15 年前

如何告诉NLTK用特定语言处理文本?

偶尔我会写一个专门的NLP程序,在非英语(但仍然是印欧语)文本域上做POS标记、标记化等。

这个问题似乎只涉及不同的语料库,而不是代码/设置的变化: POS tagging in German

或者,是否有针对python的专门希伯来语/西班牙语/波兰语NLP模块?

1 回复 | 直到 12 年前

Matti Lyra 15 年前

我不确定您所指的代码/设置更改是什么。NLTK主要依靠机器学习,而“设置”通常是从训练数据中提取出来的。

当涉及到POS标记时,结果和标记将取决于您使用/训练的标记器。如果你自己训练,你当然需要一些西班牙语/波兰语的训练数据。这可能很难找到的原因是缺乏公开的金标准材料。有很多工具可以做到这一点,但这不是针对Python的( http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/ )。

nltk.tokenize.punkt.punksentencetokenizer tokenizer将根据多语言句子边界对句子进行tokenize,具体内容可在本文中找到。( http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485 )

推荐文章

user4660280 · 使用我自己的标记语料库进行NLTK词性标记?

6 年前

Swamy · 如何建立深度学习模型,从几个不同的袋子中挑选单词,形成一个有意义的句子[结束]

6 年前

user9092346 · NLTK-标记后连接专有名词

6 年前

Nice · 如何解决nltk中的NotImplementedError。分类I?

6 年前

ArchivistG · 尝试使用re将3个结果打印到表中

7 年前

AKKA · nltk中Jaccard距离度量的实现。指标。距离与数学定义不一致?

7 年前

Ovaflow · 计算句子中的特定单词

7 年前

Sandy · 使用pandas从字符串生成N-gram

7 年前

Freakant · NLTK。检测句子是否是疑问句?

7 年前

Adeeb Abdul Salam · 如何查找NLTK缺少的资源?[副本]

7 年前