Индекс строки вне диапазона в тегах POS

Question

Индекс строки вне диапазона в тегах POS

Я делаю POS-теги, используя пакет nltk в Python. Теперь он показывает индекс строки ошибки вне диапазона, хотя моя строка не очень большая.

import nltk

sample_list = ['', 'emma', 'jane', 'austen', '1816', '', 'volume', 'chapter', 'emma', 'woodhouse', ' ','handsome', ' ', 'clever', ' ', 'rich', ' ', 'comfortable', 'home', 'happy', 'disposition', ' ','seemed', 'unite', 'best','blessings', 'existence', '', 'lived','nearly', 'twenty-one', 'years','world', 'little', 'distress', 'vex', '', 'youngest','two']

tagged = nltk.pos_tag(sample_list)

скриншот ошибки

3

python string nltk pos-tagging

Источник

user8389618 29 окт '18 в 13:38

2 ответа

Другие вопросы по тегам python string nltk pos-tagging

user5811078 29 окт '18 в 13:46 2018-10-29 13:46 · Answer 1 · 2018-10-29 13:46

Ваша проблема с пустыми строками, а именно '' так что вы можете использовать:

tagged = nltk.pos_tag([i for i in sample_list if i])

4

Источник

user5811078 29 окт '18 в 13:46

user99267 29 окт '18 в 13:53 2018-10-29 13:53 · Answer 2 · 2018-10-29 13:53

Ваш ввод содержит пустые слова, такие как ваши первые элементы в списке. Попробуйте выполнить фильтрацию следующим образом:

clean_sample_list = [word for word in sample_list if 
word]
tagged = nltk.pos_tag(clean_sample_list)

1

Источник

user99267 29 окт '18 в 13:53