Описание тега huggingface-tokenizers
Используйте этот тег для вопросов, связанных с проектом токенизаторов от huggingface.
Github: https://github.com/huggingface/tokenizers
1
ответ
Python ImportError: из трансформаторов import BertTokenizer, BertConfig
Я пытаюсь выполнить распознавание именованных объектов в Python с помощью BERT и установил трансформаторы v 3.0.2 из huggingface, используя pip install transformers. Затем, когда я пытаюсь запустить этот код: import torch from torch.utils.data impor…
13 июл '20 в 21:27
0
ответов
Расшифровка прогнозов для задачи моделирования языка с масками с использованием пользовательского BPE
Я обучил собственный токенизатор BPE для RoBERTa с использованием токенизаторов. Я обучил пользовательскую модель на замаскированной задаче LM, используя скелет, предоставленный в run_language_modeling.py Модель достигает недоумения 3.2832 на протян…
15 апр '20 в 18:22
1
ответ
BertWordPieceTokenizer против BertTokenizer от HuggingFace
У меня есть следующие фрагменты кода, и я пытаюсь понять разницу между BertWordPieceTokenizer и BertTokenizer. BertWordPieceTokenizer (на основе Rust) from tokenizers import BertWordPieceTokenizer sequence = "Hello, y'all! How are you Tokenizer…
16 июн '20 в 12:19
0
ответов
Скрипт Transformers выполняется, но не работает в отладчике PyCharm
Я использую следующий сценарий в режиме отладки, чтобы лучше понять внутреннюю работу функции Transformers model.generate(). Это часть API, который я создаю для клиента, поэтому игнорируйте код Flask - ключевой проблемой здесь является заставить раб…
31 авг '20 в 20:03
1
ответ
Быстрые и медленные токенизаторы дают разные результаты
Используя инструмент конвейера HuggingFace, я был удивлен, обнаружив существенную разницу в выводе при использовании быстрого и медленного токенизатора. В частности, когда я запускаю конвейер маски заполнения, вероятности, присвоенные словам, которы…
12 апр '20 в 06:32
1
ответ
Внимание_mask отсутствует в возвращаемом dict от tokenizer.encode_plus
У меня есть кодовая база, которая работает нормально, но сегодня, когда я пытался запустить, я заметил, что tokenizer.encode_plus перестал возвращаться attention_mask. Он удален в последней версии? Или мне нужно сделать что-то еще? Следующий фрагмен…
30 апр '20 в 01:51
1
ответ
Начало работы: карточки модели Huggingface
Я только недавно начал изучать библиотеку трансформаторов huggingface. Когда я попытался начать использовать код модели карты, например, модель сообщества from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("e…
17 июн '20 в 19:41
3
ответа
Hugging-Face Transformers: загрузка модели из ошибки пути
Я новичок в трансформерах Hugging-Face. Когда я пытаюсь загрузить модель xlm-roberta-base по заданному пути, я сталкиваюсь со следующей проблемой: >> tokenizer = AutoTokenizer.from_pretrained(model_path) >> Traceback (most recent call la…
29 июн '20 в 18:53
3
ответа
Как перевести с китайского на английский с помощью HuggingFace?
Я хочу переводить с китайского на английский с помощью трансформаторов HuggingFace, используя предварительно обученный "xlm-mlm-xnli15-1024"модель. В этом руководстве показано, как это сделать с английского на немецкий. Я пробовал следоват…
04 июл '20 в 15:16
1
ответ
Как использовать КЛЕЙ библиотеки HuggingFace nlp для CoLA
Я пытался использовать метрику GLUE библиотеки HuggingFace nlp, чтобы проверить, является ли данное предложение грамматическим предложением английского языка. Но я получаю сообщение об ошибке и завис, не имея возможности продолжить. Что я пробовал д…
07 июл '20 в 05:12
0
ответов
Несогласованное поведение ByteLevelBPETokenizer
Я столкнулся со странным поведением ByteLevelBPETokenizer: этот общедоступный блокнот параметризован для работы с двумя почти идентичными текстовыми файлами. Первый - это транслитерация текста Библии на иврите, а второй - та же транслитерация с двум…
22 июл '20 в 14:59
1
ответ
HuggingFace Transformers: BertTokenizer меняет персонажей
Я загрузил норвежскую BERT-модель с https://github.com/botxo/nordic_bert и загрузил ее, используя: import transformers as t model_class = t.BertModel tokenizer_class = t.BertTokenizer tokenizer = tokenizer_class.from_pretrained(/PATH/TO/MODEL/FOLDER…
29 июл '20 в 14:05
0
ответов
"ValueError: вы должны указать input_ids или inputs_embeds" при использовании трейнера
Я получаю "ValueError: You have to specify either input_ids or inputs_embeds" из, казалось бы, простого обучающего примера: Iteration: 0%| | 0/6694 [00:00<?, ?it/s] Epoch: 0%| | 0/3 [00:00<?, ?it/s] Traceback (most recent call last):…
04 авг '20 в 07:40
2
ответа
BPE несколько способов кодирования слова
С помощью BPE или WordPiece может быть несколько способов кодирования слова. Например, предположим (для простоты), что словарь токенов содержит все буквы, а также объединенные символы ("to", "ke", "en"). Тогда слово "токен" можно было бы закодироват…
05 авг '20 в 14:07
1
ответ
Нужно ли мне предварительно токенизировать текст перед использованием HuggingFace's RobertaTokenizer? (Различное понимание)
Я смущаюсь, когда использую токенизатор Роберты в Huggingface. >>> tokenizer = RobertaTokenizer.from_pretrained('roberta-base') >>> x = tokenizer.tokenize("The tiger is ___ (big) than the dog.") ['The', 'Ġtiger', 'Ġis', 'Ġ___', 'Ġ(…
17 июн '20 в 09:19
5
ответов
Как отключить предупреждение TOKENIZERS_PARALLELISM=(true | false)?
Я использую pytorch для обучения модели huggingface-transformers, но каждую эпоху всегда выводил предупреждение: The current process just got forked. Disabling parallelism to avoid deadlocks... To disable this warning, please explicitly set TOKENIZE…
02 июл '20 в 10:35
1
ответ
Обнимающее лицо: токенизатор для вопроса в маске lm
Я использую для своего проекта трансформатор версии 3.0.0 и у меня есть вопросы. Я хочу использовать модель Берта с замаскированной предтренингом для белковых последовательностей. Чтобы получить токенизатор уровня персонажа, я получил от BertTokeniz…
06 июл '20 в 17:04
5
ответов
ValueError: TextEncodeInput должен быть Union[TextInputSequence, Tuple[InputSequence, InputSequence]] - ошибка токенизации BERT / Distilbert
def split_data(path): df = pd.read_csv(path) return train_test_split(df , test_size=0.1, random_state=100) train, test = split_data(DATA_DIR) train_texts, train_labels = train['text'].to_list(), train['sentiment'].to_list() test_texts, test_labels =…
21 авг '20 в 08:59
2
ответа
AutoTokenizer.from_pretrained не может загрузить локально сохраненный предварительно обученный токенизатор (PyTorch)
Я новичок в PyTorch и в последнее время пытаюсь работать с Transformers. Я использую предварительно обученные токенизаторы, предоставленные HuggingFace.Я успешно их загрузил и запустил. Но если я попытаюсь сохранить их и снова загрузить, то возникне…
19 июн '20 в 17:17
0
ответов
(Huggingface Transformers) Вопрос для формы вывода BartModel
Настроить многоязычный Барт с корейским для создания некоторых текстов. пока я пытался передать свои данные в модель, я не могу понять, почему выходная форма модели отличается от того, что я ожидал. Настройки: я использовал MBartTokenizer и BartForC…
19 июл '20 в 13:04