Распознавание именованных объектов на фрейме данных Python
Мой фрейм данных Python выглядит примерно так после удаления стоп-слов и токенизации
issue_detail
0
[I, outdated, information, credit, report, I, ...
1
[This, company, refuses, provide, verification...
2
[Need, move, XXXX, facility, ., Can, longer, a...
3
[I, wrote, Equifax, 6, weeks, ago, ., They, re...
4
[I, received, inquiry, alert, Experian, XXXX/X...
Теперь я хочу использовать распознавание именованных объектов, используя приведенный ниже код
Использование кода Alvas для ссылки на распознавание именованных объектов с регулярным выражением: NLTK
from nltk import ne_chunk, pos_tag
from nltk.tokenize import word_tokenize
from nltk.tree import Tree
def get_continuous_chunks(text):
chunked = ne_chunk(pos_tag(word_tokenize(text)))
prev = None
continuous_chunk = []
current_chunk = []
for i in chunked:
if type(i) == Tree:
current_chunk.append(" ".join([token for token, pos in i.leaves()]))
elif current_chunk:
named_entity = " ".join(current_chunk)
if named_entity not in continuous_chunk:
continuous_chunk.append(named_entity)
current_chunk = []
else:
continue
return continuous_chunk
# txt = 'The new GOP era in Washington got off to a messy start Tuesday as House Republicans,under pressure from President-elect Donald Trump.'
print (get_continuous_chunks(df))
Этот код не дает мне правильных результатов и выдает ошибку
TypeError: ожидаемая строка или байтовоподобный объект
Подскажите, пожалуйста, как я могу применить распознавание именованных объектов на этом кадре данных?