Поиск сокращений в данных с помощью R

Question

Поиск сокращений в данных с помощью R

В моих данных (это текст) есть сокращения.

Есть ли какие-либо функции или код для поиска сокращений в тексте? Например, обнаружение 3-4-5 заглавных букв и позвольте мне посчитать, как часто они случаются.

Очень признателен!

1

r regex tidyr stringr tidytext

Источник

user8155647 13 июн '17 в 18:20

2 ответа

Решение

Вы можете использовать регулярное выражение [A-Z] чтобы соответствовать любому вхождению буквы. Если вы хотите, чтобы этот шаблон повторялся 3 раза, вы можете добавить \1{3} к вашему регулярному выражению. Подумайте об использовании переменных и цикла, чтобы выполнить работу от 3 до 5 раз.

0

Источник

user3609394 13 июн '17 в 18:30

Другие вопросы по тегам r regex tidyr stringr tidytext

user3832970 13 июн '17 в 20:11 2017-06-13 20:11 · Accepted Answer · 2017-06-13 20:11

обнаружение 3-4-5 заглавных букв

Вы можете использовать

\b[A-Z]{3,5}\b

Посмотреть демо-версию регулярного выражения

Детали:

\b - граница слова
[A-Z]{3,5} - 3, 4 или 5 заглавных букв (используйте [[:upper:]] сопоставлять буквы кроме ASCII тоже)
\b - граница слова.

Демонстрация R онлайн (используя код счетчика повторений регулярных выражений из @TheComeOnMan)

abbrev_regex <- "\\b[A-Z]{3,5}\\b";
x <- "XYZ was seen at WXYZ with VWXYZ and did ABCDEFGH."
sum(gregexpr(abbrev_regex,x)[[1]] > 0)
## => [1] 3
regmatches(x, gregexpr(abbrev_regex, x))[[1]]
## => [1] "XYZ"   "WXYZ"  "VWXYZ"