代码之家 › 专栏 › 技术社区 › user23359931

Tokenizer拆分特殊单词

byte-pair-encoding huggingface-tokenizers tokenize

0

user23359931 · 技术社区 · 5 月前

我正试图在我的数据上训练字节计数器。我添加了一些我不想进一步标记的特殊单词。但是当我使用RobertaTokenizer对包含特殊单词的句子进行标记时,特殊单词就会被标记。

我的训练标记器代码: `从标记器导入BertWordPieceTokenizer、ByteLevelBPETokenizer

files='file.txt'

标记器=ByteLevelBPETokenizer( 小写=真, )

然后训练

tokenizer.train( 文件夹, vocab_size=100000, min_频率=5, show_progress=真, 特殊标记=[“ ~~", "~~ “、”、“、”“、”auto_part“、”bokchoy“], ) `

保存文件

tokenizer.save_model('bpe_piece')

测试标记器: from transformers import RobertaTokenizer tokenizer = RobertaTokenizer.from_pretrained('bpe_piece') print(tokenizer.tokenize('an bokchoy auto_part)) 输出应为 ['an', 'bokchoy', 'auto_part'] 但相反,输出是 ['an', 'Ä bok', 'choy', 'Ä auto', '_', 'part']

0 回复 | 直到 5 月前