Использование unique() и == для сравнения акцентированных и не акцентированных символов

Question

Использование unique() и == для сравнения акцентированных и не акцентированных символов

Я собираю несколько таблиц, которые выглядят почти одинаково, за исключением того, что некоторые символы выглядят без акцента в одних и не акцентируются в других. Например, "Андре" иногда читает "Андре", "Флавио" и "Флавио" и т. Д. Мне нужно рассматривать все варианты как равные, но unique() считает их разными. Я думал об изменении всего акцентированного на не акцентированный, а затем с использованием unique(), но я подумал, что, возможно, есть другой, более быстрый вариант.

Позже мне нужно сделать такое же сравнение без учета акцента, используя ==, поэтому я думаю об удалении всех акцентов из копии каждой таблицы и проведении сравнения на копиях. Пожалуйста, скажите мне, если есть другой, лучший подход.

9

r unique diacritics accent-insensitive

Источник

user1086511 12 авг '15 в 18:42

1 ответ

Решение

Другие вопросы по тегам r unique diacritics accent-insensitive

user1756702 12 авг '15 в 19:11 2015-08-12 19:11 · Accepted Answer · 2015-08-12 19:11

Подход удаления акцентов перед сравнением кажется подходящим для ваших целей. Обратите внимание, что такая возможность существует в iconv с TRANSLIT флаг

iconv(c("André","Flávio"),to='ASCII//TRANSLIT')
#> [1] "Andre"  "Flavio"

6

Источник

user1756702 12 авг '15 в 19:11