Получение уникального количества из структурированных текстовых данных

Question

Получение уникального количества из структурированных текстовых данных

Мне интересно, как получить уникальное количество символов из текстовой строки из структурированного набора данных. Это дополнительный вопрос к моему предыдущему посту. Я хотел бы получить уникальное количество яблок (закодировано как приложение), бананов (закодировано как бан), ананасов (закодировано как пин-код), винограда (закодировано как Grp)

    text<- c('AppPinAppBan', 'AppPinOra', 'AppPinGrpLonNYC')
    df<- data.frame(text)

   library(stringr)
   df$fruituniquecount<- str_count(df$A, "App|Ban|Pin|Grp")

   ## I am expecting output as follows:

      text           fruituniquecount
     AppPinAppBan     3
     AppPinOra        2
     AppPinGrpLonNYC  3

1

r dplyr stringr stringi

Источник

user3570187 25 фев '19 в 14:45

2 ответа

Решение

Может быть, это можно сделать с помощью базы R, нет необходимости во внешних пакетах.

m <- gregexpr("App|Ban|Pin|Grp", df$text)
df$fruituniquecount <- lengths(lapply(regmatches(df$text, m), unique))

df
#             text fruituniquecount
#1    AppPinAppBan                3
#2       AppPinOra                2
#3 AppPinGrpLonNYC                3

3

Источник

user8245406 25 фев '19 в 14:51

Другие вопросы по тегам r dplyr stringr stringi

user5635580 25 фев '19 в 14:51 2019-02-25 14:51 · Accepted Answer · 2019-02-25 14:51

Следуя той же идее, что и принятый ответ на ваш предыдущий вопрос, вы можете сделать,

library(stringr)

sapply(str_extract_all(df$text, "App|Ban|Pin|Grp"), function(i)length(unique(i)))
#[1]3 2 3

2

Источник

user5635580 25 фев '19 в 14:51