Свяжите расплавленный объект таблицы с исходным фреймом данных?

Question

Свяжите расплавленный объект таблицы с исходным фреймом данных?

Я пытаюсь подсчитать, сколько раз каждое слово в строке в кадре данных происходит в определенный момент времени. Вот мой фрейм данных:

library(stringr)

df <- data.frame("Corpus" = c("this is some text", 
                              "here is some more text text",
                              "more food for everyone",
                              "less for no one",
                              "something text here is some more text",
                              "everyone should go home",
                              "more random text",
                              "random text more more more",
                              "plenty of random text",
                              "the final piece of random everyone text"),

                 "Class" = c("X", "Y", "Y", "Y", "Y",
                           "Y", "Y", "Z",
                           "Z", "Z"),

                 "OpenTime" = c("12/01/2016 10:45:00", "11/07/2016 10:32:00",
                                "11/15/2015 01:45:00", "08/23/2012 1:23:00",
                                "12/17/2016 11:45:00", "12/16/2016 9:47:00",
                                "04/11/2015 04:23:00", "11/27/2016 12:12:00",
                                "08/25/2015 10:46:00", "09/27/2016 10:46:00"))

Я пытаюсь получить этот результат:

Class    OpenTime             Word    Frequency
X        12/01/2016 10:45:00  this    1
X        12/01/2016 10:45:00  is      1
X        12/01/2016 10:45:00  some    1
X        12/01/2016 10:45:00  text    1
Y        11/07/2016 10:32:00  here    1
Y        11/07/2016 10:32:00  is      1
Y        11/07/2016 10:32:00  some    1
Y        11/07/2016 10:32:00  more    1
Y        11/07/2016 10:32:00  text    2
...

Я хотел бы сделать все это с groupby в dplyr, но я еще не получил это работать. Вместо этого я попробовал вот что:

splits <- strsplit(as.character(df$Corpus), split = " ")

counts <- lapply(splits, table)

counts.melted <- lapply(counts, melt)

Это дает мне транспонированный вид, который я хочу:

> counts.melted
[[1]]
  Var1 value
1   is     1
2 some     1
3 text     1
4 this     1

[[2]]
  Var1 value
1 here     1
2   is     1
3 more     1
4 some     1
5 text     1
...

Но как я могу связать этот список расплавленных векторов с исходными данными, чтобы получить желаемый результат выше? Я пытался с помощью rep повторить Class Значение для стольких слов было в каждом ряду, но имело мало успеха. Было бы легко сделать все это в for цикл, но я бы предпочел сделать это с помощью векторизованных методов, таких как lapply,

out.df <- data.frame("RRN" = NULL, "OpenTime" = NULL, 
                 "Word" = NULL, "Frequency" = NULL)

0

r string lapply

Источник

user5015569 12 дек '16 в 18:35

1 ответ

Решение

Другие вопросы по тегам r string lapply

user5015569 13 дек '16 в 13:47 2016-12-13 13:47 · Accepted Answer · 2016-12-13 13:47

Для тех, кто приедет сюда в будущем, я смог векторизовать большую часть решения моей проблемы. К сожалению, я все еще ищу способы использования lapply вместо for Цикл ниже, но это именно то, что я хочу:

# split each row in the corpus column on spaces
splits <- strsplit(as.character(df$Corpus), split = " ")

# count the number of times each word in a row appears in that row
counts <- lapply(splits, table)

# melt that table to make things more palatable
counts.melted <- lapply(counts, melt)

# the result data frame to which we'll append our results
out.df <- data.frame("Class" = c(), "OpenTime" = c(), 
                     "Word" = c(), "Frequency" = c())

# it would be better to vectorize this, using something like lapply
for(idx in 1:length(counts.melted)){

  # coerce the melted table at that index to a data frame
  count.df <- as.data.frame(counts.melted[idx])

  # change the column names
  names(count.df) <- c("Word", "Frequency")

  # repeat the Classand time for that row to fill in those column
  count.df[, 'Class'] <- rep(as.character(df[idx, "Class"]), nrow(count.df))
  count.df[, 'OpenTime'] <- rep(as.character(df[idx, "OpenTime"]), nrow(count.df))

  # append the results
  out.df <- rbind(out.df, count.df)
}