Распознавание именованных объектов на фрейме данных Python

Мой фрейм данных Python выглядит примерно так после удаления стоп-слов и токенизации

issue_detail



0
[I, outdated, information, credit, report, I, ... 

1
[This, company, refuses, provide, verification... 

2
[Need, move, XXXX, facility, ., Can, longer, a... 

3
[I, wrote, Equifax, 6, weeks, ago, ., They, re... 

4
[I, received, inquiry, alert, Experian, XXXX/X... 

Теперь я хочу использовать распознавание именованных объектов, используя приведенный ниже код

Использование кода Alvas для ссылки на распознавание именованных объектов с регулярным выражением: NLTK

from nltk import ne_chunk, pos_tag
from nltk.tokenize import word_tokenize
from nltk.tree import Tree

def get_continuous_chunks(text):
    chunked = ne_chunk(pos_tag(word_tokenize(text)))
    prev = None
    continuous_chunk = []
    current_chunk = []

    for i in chunked:
        if type(i) == Tree:
            current_chunk.append(" ".join([token for token, pos in i.leaves()]))
        elif current_chunk:
            named_entity = " ".join(current_chunk)
            if named_entity not in continuous_chunk:
                continuous_chunk.append(named_entity)
                current_chunk = []
        else:
            continue

    return continuous_chunk

# txt = 'The new GOP era in Washington got off to a messy start Tuesday as House Republicans,under pressure from President-elect Donald Trump.'
print (get_continuous_chunks(df))

Этот код не дает мне правильных результатов и выдает ошибку

TypeError: ожидаемая строка или байтовоподобный объект

Подскажите, пожалуйста, как я могу применить распознавание именованных объектов на этом кадре данных?

0 ответов

Другие вопросы по тегам