Функция / пакет R для стандартизации неправильно записанных слов?

Question

Функция / пакет R для стандартизации неправильно записанных слов?

Я отбрасываю / забираю сотни страниц замечательным pdftoolsпакет, включающий многократно имена одних и тех же лиц. В целом, извлечение работает хорошо, но в некоторых случаях имена распознаются неправильно, например, Simo вместо Simic. Итак, я получаю, например, 200 раз Simic и 15 раз Simo (и то же самое более или менее с другими именами).

Один из способов исправить это - вручную изменить неправильные записи, например, с помощью tidyverse case_when а также str_detect. Однако это означает, что я должен проверять каждое имя и указывать его для каждого конкретного случая.

Итак, мой вопрос заключается в том, существует ли какая-либо функция, пакет r, которая берет на себя такую задачу и упрощает ее, например, группирует по словам, которые не отличаются от более чем двумя символами, и согласовывают их с наиболее часто встречающимися. Очевидно, что этот подход может вызвать проблемы, если действительно есть очень похожие имена, но их можно проверить.

Благодарен за любой намек. Большое спасибо.

0

r ocr pdftools

Источник

user2221566 28 ноя '19 в 20:24

0 ответов

Другие вопросы по тегам r ocr pdftools