Несогласованное поведение ByteLevelBPETokenizer

Question

Несогласованное поведение ByteLevelBPETokenizer

Я столкнулся со странным поведением ByteLevelBPETokenizer: этот общедоступный блокнот параметризован для работы с двумя почти идентичными текстовыми файлами. Первый - это транслитерация текста Библии на иврите, а второй - та же транслитерация с двумя модификациями - символы 'и' заменены еврейскими буквами ע и א соответственно (при транслитерации использовались эти 2 типа апострофов для обозначения этих Согласные иврита). После обучения на первом файле (tanach_translit_orig) токенизатору дается тестовое предложение для кодирования и результаты с 19 токенами, но при запуске того же процесса для второго файла и того же тестового предложения, измененного соответствующим образом (путем замены апострофов еврейскими буквами) токенизатор дает 9 токенов. Я предположил, что ByteLevelBPETokenizer не зависит от значений символов, и я не могу понять, почему результаты различаются между экспериментами.Кто-нибудь может пролить свет, пожалуйста? PS для переключения между файлами все, что вам нужно, - это не комментировать соответствующую строку на втором этапе записной книжки:

0

huggingface-transformers bert-language-model huggingface-tokenizers roberta

Источник

user137891 22 июл '20 в 14:59

0 ответов

Другие вопросы по тегам huggingface-transformers bert-language-model huggingface-tokenizers roberta