ValueError: TextEncodeInput должен быть Union[TextInputSequence, Tuple[InputSequence, InputSequence]] - ошибка токенизации BERT / Distilbert

Question

ValueError: TextEncodeInput должен быть Union[TextInputSequence, Tuple[InputSequence, InputSequence]] - ошибка токенизации BERT / Distilbert

def split_data(path):
  df = pd.read_csv(path)
  return train_test_split(df , test_size=0.1, random_state=100)

train, test = split_data(DATA_DIR)
train_texts, train_labels = train['text'].to_list(), train['sentiment'].to_list() 
test_texts, test_labels = test['text'].to_list(), test['sentiment'].to_list() 

train_texts, val_texts, train_labels, val_labels = train_test_split(train_texts, train_labels, test_size=0.1, random_state=100)

from transformers import DistilBertTokenizerFast
tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-uncased

train_encodings = tokenizer(train_texts, truncation=True, padding=True)
valid_encodings = tokenizer(valid_texts, truncation=True, padding=True)
test_encodings = tokenizer(test_texts, truncation=True, padding=True)

Когда я попытался отделиться от фрейма данных с помощью токенизаторов BERT, я получил такую ошибку.

45

huggingface-transformers tokenize bert-language-model huggingface-tokenizers distilbert

Источник

user8634589 21 авг '20 в 08:59

5 ответов

Другие вопросы по тегам huggingface-transformers tokenize bert-language-model huggingface-tokenizers distilbert

user6911682 13 сен '20 в 15:36 2020-09-13 15:36 · Answer 1 · 2020-09-13 15:36

У меня была такая же ошибка. Проблема заключалась в том, что в моем списке не было ни одного, например:

from transformers import DistilBertTokenizerFast

tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-german-cased')

# create test dataframe
texts = ['Vero Moda Damen Übergangsmantel Kurzmantel Chic Business Coatigan SALE',
         'Neu Herren Damen Sportschuhe Sneaker Turnschuhe Freizeit 1975 Schuhe Gr. 36-46',
         'KOMBI-ANGEBOT Zuckerpaste STRONG / SOFT / ZUBEHÖR -Sugaring Wachs Haarentfernung',
         None]

labels = [1, 2, 3, 1]

d = {'texts': texts, 'labels': labels} 
test_df = pd.DataFrame(d)

Итак, прежде чем преобразовать столбцы Dataframe в список, я удаляю все строки None.

test_df = test_df.dropna()
texts = test_df["texts"].tolist()
texts_encodings = tokenizer(texts, truncation=True, padding=True)

Это сработало для меня.

user2651073 26 июн '21 в 14:48 2021-06-26 14:48 · Answer 2 · 2021-06-26 14:48

В моем случае мне пришлось установить is_split_into_words=True

https://huggingface.co/transformers/main_classes/tokenizer.html

Последовательность или пакет последовательностей, которые нужно кодировать. Каждая последовательность может быть строкой или списком строк (предварительно токенизированной строкой). Если последовательности представлены в виде списка строк (предварительно токенизированных), вы должны установить is_split_into_words=True (чтобы снять неоднозначность с пакетом последовательностей).

user15380482 28 ноя '21 в 09:20 2021-11-28 09:20 · Answer 3 · 2021-11-28 09:20

Подобно MarkusOdenthal, у меня в списке был нестроковый тип. Я исправил это, преобразовав столбец в строку, а затем преобразовав его в список, прежде чем разделить его на обучающие и тестовые сегменты. Так что вы бы сделали

      train_texts = train['text'].astype(str).values.to_list()

8

Источник

user15380482 28 ноя '21 в 09:20

user14978862 08 мар '23 в 07:32 2023-03-08 07:32 · Answer 4 · 2023-03-08 07:32

в токенизаторе первый текст должен быть STR, например: train_encodings = tokenizer(str(train_texts), truncation=True, padding=True)

0

Источник

user14978862 08 мар '23 в 07:32

user8634589 21 авг '20 в 09:00 2020-08-21 09:00 · Answer 5 · 2020-08-21 09:00

def split_data(path):
  df = pd.read_csv(path)
  return train_test_split(df , test_size=0.2, random_state=100)

train, test = split_data(DATA_DIR)
train_texts, train_labels = train['text'].to_list(), train['sentiment'].to_list() 
test_texts, test_labels = test['text'].to_list(), test['sentiment'].to_list() 

train_texts, val_texts, train_labels, val_labels = train_test_split(train_texts, train_labels, test_size=0.2, random_state=100)

from transformers import DistilBertTokenizerFast
tokenizer = DistilBertTokenizerFast.from_pretrained('distilbert-base-uncased

train_encodings = tokenizer(train_texts, truncation=True, padding=True)
valid_encodings = tokenizer(valid_texts, truncation=True, padding=True)
test_encodings = tokenizer(test_texts, truncation=True, padding=True)

Попробуйте изменить размер разделения. Это сработает. Это означает, что разделенных данных было недостаточно для токенизации токенизатора.