Пропуск слов из проверки орфографии в qdap
Это мой первый пост со Stackru, прошу прощения, если я нарушаю какие-либо правила.
Я работаю с пакетом R qdap
на проверку орфографии очень грязный текст медицинской карты. Целью данной работы является выявление орфографических ошибок побочных эффектов лекарств для создания словаря орфографических ошибок. Текст, с которым я работаю, содержит много, много орфографических ошибок, аббревиатур и других вещей, которые затрудняют простую проверку орфографии. После того, как я проверю орфографию на маленькой записке доктора, я получаю сотни слов, возвращенных мне программой проверки орфографии. Это затрудняет поиск орфографических ошибок, которые мне небезразличны.
Я попытался использовать следующий код для создания словаря, состоящего только из правильно написанных побочных эффектов, так что qdap
будет вызывать слова с ошибками, как принадлежащие к этому словарю. Проблема заключается в том, что при этом почти каждое слово в тексте, написанное правильно или неправильно, не возвращается как неправильное (то есть слово "заметный" пишется неправильно, а "тошнота" - предлагаемая замена из моего словаря).
dictionary <- readLines("dictionary.txt")
check_spelling(text$NOTE_TEXT[3379],range = 0, dictionary = dictionary,
assume.first.correct=FALSE)
Здесь термин "словарь" - это мой собственный словарь побочных эффектов, и check_spelling
выполняется на тексте, содержащемся в CSV-файле. Есть ли способ пропустить слова, которые очень далеко от слов, содержащихся в моем словаре, от появления в функции проверки орфографии (такой как мой предыдущий пример)? Таким образом, я могу сократить количество слов, которые я вижу в выводе spell_check, и идентифицировать только побочные эффекты с ошибками.
В качестве небольшой заметки, меняющейся assume.first.correct
в TRUE
ничего не изменит, потому что словарь не запускается с таким образом.