Проблема с токенизатором Nltk

Question

Проблема с токенизатором Nltk

      from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
dataset['text'] = dataset['text'].apply(lambda word_list: [tokenizer.tokenize(word) for word in word_list])
dataset['text'].head()

Приведенный выше код показывает ошибку

ожидаемая строка или объект, похожий на байты, получен «список»

0

python nltk nltokenizer

Источник

Manikanta 26 авг '23 в 16:09

1 ответ

Другие вопросы по тегам python nltk nltokenizer

user11677472 26 авг '23 в 16:40 2023-08-26 16:40 · Answer 1 · 2023-08-26 16:40

Предполагая, что dataset['text'] содержит строки, попробуйте внести это изменение в свой код. Если ваша цель — маркировать каждую отдельную строку в столбце dataset['text'], вам необходимо применить токенизатор к каждой строке, а не к каждому слову в строке.

      dataset['text'] = dataset['text'].apply(lambda text: tokenizer.tokenize(text))
dataset['text'].head()

Если dataset['text'] сам по себе представляет собой список списков (где каждый внутренний список содержит слова), то нам нужно использовать другой подход.