Пропуск слов из проверки орфографии в qdap

Это мой первый пост со Stackru, прошу прощения, если я нарушаю какие-либо правила.

Я работаю с пакетом R qdap на проверку орфографии очень грязный текст медицинской карты. Целью данной работы является выявление орфографических ошибок побочных эффектов лекарств для создания словаря орфографических ошибок. Текст, с которым я работаю, содержит много, много орфографических ошибок, аббревиатур и других вещей, которые затрудняют простую проверку орфографии. После того, как я проверю орфографию на маленькой записке доктора, я получаю сотни слов, возвращенных мне программой проверки орфографии. Это затрудняет поиск орфографических ошибок, которые мне небезразличны.

Я попытался использовать следующий код для создания словаря, состоящего только из правильно написанных побочных эффектов, так что qdap будет вызывать слова с ошибками, как принадлежащие к этому словарю. Проблема заключается в том, что при этом почти каждое слово в тексте, написанное правильно или неправильно, не возвращается как неправильное (то есть слово "заметный" пишется неправильно, а "тошнота" - предлагаемая замена из моего словаря).

dictionary <- readLines("dictionary.txt")
check_spelling(text$NOTE_TEXT[3379],range = 0, dictionary = dictionary, 
    assume.first.correct=FALSE)

Здесь термин "словарь" - это мой собственный словарь побочных эффектов, и check_spelling выполняется на тексте, содержащемся в CSV-файле. Есть ли способ пропустить слова, которые очень далеко от слов, содержащихся в моем словаре, от появления в функции проверки орфографии (такой как мой предыдущий пример)? Таким образом, я могу сократить количество слов, которые я вижу в выводе spell_check, и идентифицировать только побочные эффекты с ошибками.

В качестве небольшой заметки, меняющейся assume.first.correct в TRUE ничего не изменит, потому что словарь не запускается с таким образом.

0 ответов

Другие вопросы по тегам