Объединение фраз из списка слов Python3
Делаю все возможное, чтобы извлечь информацию из большого количества PDF-файлов. Подготовьте их в формате словаря, где ключом является указанная дата, а значениями - список занятий.
выглядит так, когда это правильно:
'12/29/2014': [['COUNSELING',
'NURSING',
'NURSING',
'NURSING',
'NURSING',
'NURSING']]
Тем не менее, иногда встречаются занятия с несколькими словами, которые не могут быть надежно поняты в единственной форме слова, например:
'11/03/2014': [['DENTISTRY',
'OSTEOPATHIC',
'MEDICINE',
'SURGERY',
'SOCIAL',
'SPEECH-LANGUAGE',
'PATHOLOGY']]
Обратите внимание, что "остеопатическая медицина и хирургия" и "речевая языковая патология" являются полным текстом для двух из этих записей. Это становится более неприятным, когда у нас также есть примеры просто "остеопатического лекарства" или даже "лекарства".
Поэтому мой вопрос заключается в следующем: как мне проверить комбинации этих слов, чтобы увидеть, соответствуют ли они более сложным профессиональным названиям? Я могу использовать тот же порядок слов, что и в источнике.
Спасибо!