AutoTokenizer.from_pretrained не может загрузить локально сохраненный предварительно обученный токенизатор (PyTorch)

Question

AutoTokenizer.from_pretrained не может загрузить локально сохраненный предварительно обученный токенизатор (PyTorch)

Я новичок в PyTorch и в последнее время пытаюсь работать с Transformers. Я использую предварительно обученные токенизаторы, предоставленные HuggingFace.
Я успешно их загрузил и запустил. Но если я попытаюсь сохранить их и снова загрузить, то возникнет ошибка.
Если я использую AutoTokenizer.from_pretrained чтобы скачать токенизатор, тогда он работает.

[1]:    tokenizer = AutoTokenizer.from_pretrained('distilroberta-base')
        text = "Hello there"
        enc = tokenizer.encode_plus(text)
        enc.keys()

Out[1]: dict_keys(['input_ids', 'attention_mask'])

Но если я сохраню его, используя tokenizer.save_pretrained("distilroberta-tokenizer") и попытайтесь загрузить его локально, тогда ничего не получится.

[2]:    tmp = AutoTokenizer.from_pretrained('distilroberta-tokenizer')


---------------------------------------------------------------------------
OSError                                   Traceback (most recent call last)
/opt/conda/lib/python3.7/site-packages/transformers/configuration_utils.py in get_config_dict(cls, pretrained_model_name_or_path, **kwargs)
    238                 resume_download=resume_download,
--> 239                 local_files_only=local_files_only,
    240             )

/opt/conda/lib/python3.7/site-packages/transformers/file_utils.py in cached_path(url_or_filename, cache_dir, force_download, proxies, resume_download, user_agent, extract_compressed_file, force_extract, local_files_only)
    266         # File, but it doesn't exist.
--> 267         raise EnvironmentError("file {} not found".format(url_or_filename))
    268     else:

OSError: file distilroberta-tokenizer/config.json not found

During handling of the above exception, another exception occurred:

OSError                                   Traceback (most recent call last)
<ipython-input-25-3bd2f7a79271> in <module>
----> 1 tmp = AutoTokenizer.from_pretrained("distilroberta-tokenizer")

/opt/conda/lib/python3.7/site-packages/transformers/tokenization_auto.py in from_pretrained(cls, pretrained_model_name_or_path, *inputs, **kwargs)
    193         config = kwargs.pop("config", None)
    194         if not isinstance(config, PretrainedConfig):
--> 195             config = AutoConfig.from_pretrained(pretrained_model_name_or_path, **kwargs)
    196 
    197         if "bert-base-japanese" in pretrained_model_name_or_path:

/opt/conda/lib/python3.7/site-packages/transformers/configuration_auto.py in from_pretrained(cls, pretrained_model_name_or_path, **kwargs)
    194 
    195         """
--> 196         config_dict, _ = PretrainedConfig.get_config_dict(pretrained_model_name_or_path, **kwargs)
    197 
    198         if "model_type" in config_dict:

/opt/conda/lib/python3.7/site-packages/transformers/configuration_utils.py in get_config_dict(cls, pretrained_model_name_or_path, **kwargs)
    250                 f"- or '{pretrained_model_name_or_path}' is the correct path to a directory containing a {CONFIG_NAME} file\n\n"
    251             )
--> 252             raise EnvironmentError(msg)
    253 
    254         except json.JSONDecodeError:

OSError: Can't load config for 'distilroberta-tokenizer'. Make sure that:

- 'distilroberta-tokenizer' is a correct model identifier listed on 'https://huggingface.co/models'

- or 'distilroberta-tokenizer' is the correct path to a directory containing a config.json file

Он говорит, что "config.josn" отсутствует в каталоге. Проверяя каталог, я получаю список этих файлов:

[3]:    !ls distilroberta-tokenizer

Out[3]: merges.txt  special_tokens_map.json  tokenizer_config.json  vocab.json

Я знаю, что эта проблема была опубликована ранее, но, похоже, ни одна из них не работает. Я также пытался следовать документации, но все еще не могу заставить ее работать.
Любая помощь будет оценена.

7

python deep-learning pytorch huggingface-transformers huggingface-tokenizers

Источник

user12175624 19 июн '20 в 17:17

2 ответа

Другие вопросы по тегам python deep-learning pytorch huggingface-transformers huggingface-tokenizers

user6664872 30 июн '20 в 21:57 2020-06-30 21:57 · Answer 1 · 2020-06-30 21:57

В настоящее время исследуется проблема, которая влияет только на автоматические токенизаторы, но не на базовые токенизаторы, такие как (RobertaTokenizer). Например, должно работать следующее:

from transformers import RobertaTokenizer

tokenizer = RobertaTokenizer.from_pretrained('YOURPATH')

Для работы с AutoTokenizer вам также необходимо сохранить конфигурацию для загрузки в автономном режиме:

from transformers import AutoTokenizer, AutoConfig

tokenizer = AutoTokenizer.from_pretrained('distilroberta-base')
config = AutoConfig.from_pretrained('distilroberta-base')

tokenizer.save_pretrained('YOURPATH')
config.save_pretrained('YOURPATH')

tokenizer = AutoTokenizer.from_pretrained('YOURPATH')

Я рекомендую либо использовать другой путь для токенизаторов и модели, либо сохранить config.json вашей модели, потому что некоторые изменения, которые вы применяете к вашей модели, будут храниться в config.json, который создается во времяmodel.save_pretrained() и будет перезаписан, когда вы сохраните токенизатор, как описано выше, после вашей модели (т.е. вы не сможете загрузить свою измененную модель с помощью токенизатора config.json).

user12769533 22 июн '20 в 00:54 2020-06-22 00:54 · Answer 2 · 2020-06-22 00:54

Я вижу несколько проблем в вашем коде, которые я перечислил ниже:

distilroberta-tokenizer - это каталог, содержащий файлы конфигурации вокаба и т. д. Пожалуйста, не забудьте сначала создать этот каталог.
Использование AutoTokenizer работает, если этот каталог содержит config.json, а НЕ tokenizer_config.json. Итак, переименуйте этот файл.

Я изменил ваш код ниже, и он работает.

dir_name = "distilroberta-tokenizer"

if os.path.isdir(dir_name) == False:
    os.mkdir(dir_name)  

tokenizer.save_pretrained(dir_name)

#Rename config file now

#tmp = AutoTokenizer.from_pretrained(dir_name)

Надеюсь, это поможет!

Спасибо!