代码之家  ›  专栏  ›  技术社区  ›  user23359931

Tokenizer拆分特殊单词

  •  0
  • user23359931  · 技术社区  · 5 月前

    我正试图在我的数据上训练字节计数器。我添加了一些我不想进一步标记的特殊单词。但是当我使用RobertaTokenizer对包含特殊单词的句子进行标记时,特殊单词就会被标记。

    我的训练标记器代码: `从标记器导入BertWordPieceTokenizer、ByteLevelBPETokenizer

    files='file.txt'

    标记器=ByteLevelBPETokenizer( 小写=真, )

    然后训练

    tokenizer.train( 文件夹, vocab_size=100000, min_频率=5, show_progress=真, 特殊标记=[“ ", " “、”、“、”“、”auto_part“、”bokchoy“], ) `

    保存文件

    tokenizer.save_model('bpe_piece')

    测试标记器: from transformers import RobertaTokenizer tokenizer = RobertaTokenizer.from_pretrained('bpe_piece') print(tokenizer.tokenize('an bokchoy auto_part)) 输出应为 ['an', 'bokchoy', 'auto_part'] 但相反,输出是 ['an', 'Ä bok', 'choy', 'Ä auto', '_', 'part']

    0 回复  |  直到 5 月前
    推荐文章