Объединение фраз из списка слов Python3

Делаю все возможное, чтобы извлечь информацию из большого количества PDF-файлов. Подготовьте их в формате словаря, где ключом является указанная дата, а значениями - список занятий.

выглядит так, когда это правильно:

'12/29/2014': [['COUNSELING',
                 'NURSING',
                 'NURSING',
                 'NURSING',
                 'NURSING',
                 'NURSING']]

Тем не менее, иногда встречаются занятия с несколькими словами, которые не могут быть надежно поняты в единственной форме слова, например:

'11/03/2014': [['DENTISTRY',
                 'OSTEOPATHIC',
                 'MEDICINE',
                 'SURGERY',
                 'SOCIAL',
                 'SPEECH-LANGUAGE',
                 'PATHOLOGY']]

Обратите внимание, что "остеопатическая медицина и хирургия" и "речевая языковая патология" являются полным текстом для двух из этих записей. Это становится более неприятным, когда у нас также есть примеры просто "остеопатического лекарства" или даже "лекарства".

Поэтому мой вопрос заключается в следующем: как мне проверить комбинации этих слов, чтобы увидеть, соответствуют ли они более сложным профессиональным названиям? Я могу использовать тот же порядок слов, что и в источнике.

Спасибо!

0 ответов

Другие вопросы по тегам