есть ли способ обнаружить человека и связать текст?
У меня есть текст типа:
Возьмите добычу у некоторых из первых подтвержденных спикеров форума: Джона Секьеры .Окончил факультет биологии Facultad de Ciencias Exactas yNaturales Университета Буэнос-Айреса, Аргентина. В 2004 году получил докторскую степень в области биологии (молекулярная неврология) в Университете Буэнос-Айреса под руководством профессора Марсело Рубинштейна. В период с 2005 по 2008 год проходил постдокторскую подготовку в Институте Пастера (Париж) под руководством профессора Жан-Пьера Шанжё, чтобы исследовать роль никотиновых рецепторов в исполнительном поведении. Движимая глубоким интересом к изучению неврологических заболеваний человека, в 2009 году она поступила на работу в Институт психиатрии Королевского колледжа в Лондоне, где провела фундаментальные исследования в области нейродегенерации с трансляционной точки зрения. С 2016 года является руководителем преподавателей / адъюнкт-профессором в Университете Буэнос-Айреса, Facultad de Ciencias Exactas yNaturales. Том Гонсалесявляется профессором неврологии в Сассексской школе неврологии, Школе наук о жизни Университета Сассекса. Профессор Баден изучает, как нейроны и сети вычисляют, используя в качестве модели прекрасную коллекцию цепей, составляющих сетчатку позвоночных.
Я хочу иметь на выходе:
[{"person" : "John Sequiera" , "content": "Graduated in Biology at Facultad...."},{"person" : "Tom Gonzalez" , "content": "is a professor of Neuroscience at the Sussex..."}]
поэтому мы хотим получить NER : PER для человека, а в контенте мы помещаем все содержимое после обнаружения человека, пока не найдем нового человека в тексте...
это возможно ?
Я пытаюсь использовать spacy для извлечения NER, но обнаружил трудности с получением контента:
import spacy
nlp = spacy.load("en_core_web_lg")
doc = nlp(text)
for ent in doc.ents:
print(ent.text,ent.label_)