我正试图在我的数据上训练字节计数器。我添加了一些我不想进一步标记的特殊单词。但是当我使用RobertaTokenizer对包含特殊单词的句子进行标记时,特殊单词就会被标记。
我的训练标记器代码:
`从标记器导入BertWordPieceTokenizer、ByteLevelBPETokenizer
files='file.txt'
标记器=ByteLevelBPETokenizer(
小写=真,
)
然后训练
tokenizer.train(
文件夹,
vocab_size=100000,
min_频率=5,
show_progress=真,
特殊标记=[“
", "
“、”、“、”“、”auto_part“、”bokchoy“],
)
`
保存文件
tokenizer.save_model('bpe_piece')
测试标记器:
from transformers import RobertaTokenizer tokenizer = RobertaTokenizer.from_pretrained('bpe_piece') print(tokenizer.tokenize('an bokchoy auto_part))
输出应为
['an', 'bokchoy', 'auto_part']
但相反,输出是
['an', 'Ä bok', 'choy', 'Ä auto', '_', 'part']