Цикл по фрейму данных для поиска нескольких паттернов и создания отчетов о них

Я пытаюсь создать цикл, который подсчитывает несколько шаблонов в строках фрейма данных и сообщает о количестве вхождений в новом фрейме данных.

Вот мой вклад:

input <- data.frame(V1 = LETTERS[1:4], 
             V2 = c("ABCDEF", "AAABBBCCA", "CCAABBCC", "ACCCCCCA"),
             stringsAsFactors = FALSE)

Список шаблонов, которые я хочу найти:

list<-c("ABC", "AA", "CC", "CCCC", "A")

И ожидаемый результат:

structure(list(V1 = structure(1:4, .Label = c("A", "B", "C", 
"D"), class = "factor"), V2 = structure(c(2L, 1L, 4L, 3L), .Label = c("AAABBBCCA", 
"ABCDEF", "ACCCCCCA", "CCAABBCC"), class = "factor"), ABC = c(1L, 0L, 0L, 0L), AA = c(0L, 1L, 1L, 0L), CC = 0:3, CCCC = c(0L, 0L, 0L, 1L), A = c(1L, 4L, 2L, 1L), ABC_length = c(1L, 0L, 0L, 0L), AA_length = c(0L, 1L, 1L, 0L), CC_length = structure(1:4, .Label = c("0", "1", "1,1", "2"), class = "factor"), CCCC_length = c(0L, 0L, 0L, 1L), A_length = structure(c(1L, 4L, 3L, 2L), .Label = c("1", "1,1", "2", "3,1"), class = "factor")), .Names = c("V1", "V2",     "ABC", "AA", "CC", "CCCC", "A", "ABC_length", "AA_length", "CC_length",     "CCCC_length", "A_length"), class = "data.frame", row.names = c(NA, -4L))

Одним из решений может быть использование str_count или str_locate_all, пример ниже. Но на самом деле я хочу искать, используя вышеупомянутый список шаблонов.

library(stringr)
input$ABC <- str_count(input$ABC, "ABC")
input$ABC_length <- lapply(str_locate_all(input$ABC_length, "ABC"), function(x) {
  paste(x[, 2] - x[, 1] + 1, collapse = ",")
})

1 ответ

Вы на правильном пути, но вы ссылаетесь на желаемый результат в правой части формулы. Вместо

input$ABC <- str_count(input$ABC, "ABC")

(что не имеет смысла, потому что input$ABC еще не был создан), попробуйте

input$ABC = str_count(input$V2, "ABC")

Подобная логика для input$ABC_length: вам нужно обратиться к input$V2не input$ABC_length, на правой стороне уравнения.

Другие вопросы по тегам