Описание тега huggingface-tokenizers

Используйте этот тег для вопросов, связанных с проектом токенизаторов от huggingface. Github: https://github.com/huggingface/tokenizers
1 ответ

Python ImportError: из трансформаторов import BertTokenizer, BertConfig

Я пытаюсь выполнить распознавание именованных объектов в Python с помощью BERT и установил трансформаторы v 3.0.2 из huggingface, используя pip install transformers. Затем, когда я пытаюсь запустить этот код: import torch from torch.utils.data impor…
0 ответов

Расшифровка прогнозов для задачи моделирования языка с масками с использованием пользовательского BPE

Я обучил собственный токенизатор BPE для RoBERTa с использованием токенизаторов. Я обучил пользовательскую модель на замаскированной задаче LM, используя скелет, предоставленный в run_language_modeling.py Модель достигает недоумения 3.2832 на протян…
1 ответ

BertWordPieceTokenizer против BertTokenizer от HuggingFace

У меня есть следующие фрагменты кода, и я пытаюсь понять разницу между BertWordPieceTokenizer и BertTokenizer. BertWordPieceTokenizer (на основе Rust) from tokenizers import BertWordPieceTokenizer sequence = "Hello, y'all! How are you Tokenizer…
0 ответов

Скрипт Transformers выполняется, но не работает в отладчике PyCharm

Я использую следующий сценарий в режиме отладки, чтобы лучше понять внутреннюю работу функции Transformers model.generate(). Это часть API, который я создаю для клиента, поэтому игнорируйте код Flask - ключевой проблемой здесь является заставить раб…
1 ответ

Быстрые и медленные токенизаторы дают разные результаты

Используя инструмент конвейера HuggingFace, я был удивлен, обнаружив существенную разницу в выводе при использовании быстрого и медленного токенизатора. В частности, когда я запускаю конвейер маски заполнения, вероятности, присвоенные словам, которы…
1 ответ

Внимание_mask отсутствует в возвращаемом dict от tokenizer.encode_plus

У меня есть кодовая база, которая работает нормально, но сегодня, когда я пытался запустить, я заметил, что tokenizer.encode_plus перестал возвращаться attention_mask. Он удален в последней версии? Или мне нужно сделать что-то еще? Следующий фрагмен…
1 ответ

Начало работы: карточки модели Huggingface

Я только недавно начал изучать библиотеку трансформаторов huggingface. Когда я попытался начать использовать код модели карты, например, модель сообщества from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained("e…
3 ответа

Hugging-Face Transformers: загрузка модели из ошибки пути

Я новичок в трансформерах Hugging-Face. Когда я пытаюсь загрузить модель xlm-roberta-base по заданному пути, я сталкиваюсь со следующей проблемой: >> tokenizer = AutoTokenizer.from_pretrained(model_path) >> Traceback (most recent call la…
3 ответа

Как перевести с китайского на английский с помощью HuggingFace?

Я хочу переводить с китайского на английский с помощью трансформаторов HuggingFace, используя предварительно обученный "xlm-mlm-xnli15-1024"модель. В этом руководстве показано, как это сделать с английского на немецкий. Я пробовал следоват…
1 ответ

Как использовать КЛЕЙ библиотеки HuggingFace nlp для CoLA

Я пытался использовать метрику GLUE библиотеки HuggingFace nlp, чтобы проверить, является ли данное предложение грамматическим предложением английского языка. Но я получаю сообщение об ошибке и завис, не имея возможности продолжить. Что я пробовал д…
0 ответов

Несогласованное поведение ByteLevelBPETokenizer

Я столкнулся со странным поведением ByteLevelBPETokenizer: этот общедоступный блокнот параметризован для работы с двумя почти идентичными текстовыми файлами. Первый - это транслитерация текста Библии на иврите, а второй - та же транслитерация с двум…
1 ответ

HuggingFace Transformers: BertTokenizer меняет персонажей

Я загрузил норвежскую BERT-модель с https://github.com/botxo/nordic_bert и загрузил ее, используя: import transformers as t model_class = t.BertModel tokenizer_class = t.BertTokenizer tokenizer = tokenizer_class.from_pretrained(/PATH/TO/MODEL/FOLDER…
0 ответов

"ValueError: вы должны указать input_ids или inputs_embeds" при использовании трейнера

Я получаю "ValueError: You have to specify either input_ids or inputs_embeds" из, казалось бы, простого обучающего примера: Iteration: 0%| | 0/6694 [00:00<?, ?it/s] Epoch: 0%| | 0/3 [00:00<?, ?it/s] Traceback (most recent call last):…
2 ответа

BPE несколько способов кодирования слова

С помощью BPE или WordPiece может быть несколько способов кодирования слова. Например, предположим (для простоты), что словарь токенов содержит все буквы, а также объединенные символы ("to", "ke", "en"). Тогда слово "токен" можно было бы закодироват…
1 ответ

Нужно ли мне предварительно токенизировать текст перед использованием HuggingFace's RobertaTokenizer? (Различное понимание)

Я смущаюсь, когда использую токенизатор Роберты в Huggingface. >>> tokenizer = RobertaTokenizer.from_pretrained('roberta-base') >>> x = tokenizer.tokenize("The tiger is ___ (big) than the dog.") ['The', 'Ġtiger', 'Ġis', 'Ġ___', 'Ġ(…
5 ответов

Как отключить предупреждение TOKENIZERS_PARALLELISM=(true | false)?

Я использую pytorch для обучения модели huggingface-transformers, но каждую эпоху всегда выводил предупреждение: The current process just got forked. Disabling parallelism to avoid deadlocks... To disable this warning, please explicitly set TOKENIZE…
1 ответ

Обнимающее лицо: токенизатор для вопроса в маске lm

Я использую для своего проекта трансформатор версии 3.0.0 и у меня есть вопросы. Я хочу использовать модель Берта с замаскированной предтренингом для белковых последовательностей. Чтобы получить токенизатор уровня персонажа, я получил от BertTokeniz…
5 ответов

ValueError: TextEncodeInput должен быть Union[TextInputSequence, Tuple[InputSequence, InputSequence]] - ошибка токенизации BERT / Distilbert

def split_data(path): df = pd.read_csv(path) return train_test_split(df , test_size=0.1, random_state=100) train, test = split_data(DATA_DIR) train_texts, train_labels = train['text'].to_list(), train['sentiment'].to_list() test_texts, test_labels =…
2 ответа

AutoTokenizer.from_pretrained не может загрузить локально сохраненный предварительно обученный токенизатор (PyTorch)

Я новичок в PyTorch и в последнее время пытаюсь работать с Transformers. Я использую предварительно обученные токенизаторы, предоставленные HuggingFace.Я успешно их загрузил и запустил. Но если я попытаюсь сохранить их и снова загрузить, то возникне…
0 ответов

(Huggingface Transformers) Вопрос для формы вывода BartModel

Настроить многоязычный Барт с корейским для создания некоторых текстов. пока я пытался передать свои данные в модель, я не могу понять, почему выходная форма модели отличается от того, что я ожидал. Настройки: я использовал MBartTokenizer и BartForC…