![]() |
1
8
我不确定您所指的代码/设置更改是什么。NLTK主要依靠机器学习,而“设置”通常是从训练数据中提取出来的。 当涉及到POS标记时,结果和标记将取决于您使用/训练的标记器。如果你自己训练,你当然需要一些西班牙语/波兰语的训练数据。这可能很难找到的原因是缺乏公开的金标准材料。有很多工具可以做到这一点,但这不是针对Python的( http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/ )。 nltk.tokenize.punkt.punksentencetokenizer tokenizer将根据多语言句子边界对句子进行tokenize,具体内容可在本文中找到。( http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485 ) |
![]() |
user9092346 · NLTK-标记后连接专有名词 6 年前 |
![]() |
ArchivistG · 尝试使用re将3个结果打印到表中 7 年前 |
![]() |
Ovaflow · 计算句子中的特定单词 7 年前 |
![]() |
Sandy · 使用pandas从字符串生成N-gram 7 年前 |
|
Freakant · NLTK。检测句子是否是疑问句? 7 年前 |