модель distilbert не работает в ktrain
Я пробовал использовать классификатор дистильберта. но я получаю следующую ошибку.
Это мой код
(X_train,y_train),(X_test,y_test),prepro
=text.texts_from_df(train_df=data_train,text_column="Cleaned",label_columns=col
,val_df=data_test,maxlen=500,preprocess_mode="distilbert")
и вот ошибка
OSError: Model name 'distilbert-base-uncased' was not found in tokenizers model name list (distilbert-base-uncased, distilbert-base-uncased-distilled-squad, distilbert-base-cased, distilbert-base-cased-distilled-squad, distilbert-base-german-cased, distilbert-base-multilingual-cased). We assumed 'distilbert-base-uncased' was a path, a model identifier, or url to a directory containing vocabulary files named ['vocab.txt'] but couldn't find such vocabulary files at this path or url._
Из-за проблем с окружающей средой в моем офисе я могу работать только с tf 2.2 и python 3.8. Сейчас я использую 0.19.
Как вы думаете, повлияет ли я на мою текущую среду, если я понизлю ее до 0,16?
1 ответ
Эта ошибка может возникнуть, если существует проблема с сетью или брандмауэром, препятствующая загрузке файлов токенизатора. См. Этот раздел часто задаваемых вопросов для получения информации о средствах.
Кроме того, когда вы используете preprocess_mode='distilbert'
, texts_from*
функции возвращаются TransformerDataset
экземпляры, а не массивы. Вам нужно будет заменить(X_train, y_train)
с участием train_data
, например. См. Этот пример записной книжки.