Дубликаты в функции agrep

У меня есть следующий код:

x <- data.frame("SN" = 1:2, "Name" = c("aaa","bbb"))

y <- data.frame("SN" = 1:2,  "Name" = c("aa1","aa2"))

x$partials<- as.character(sapply(x$Name, agrep, y$Name,max.distance = 1,value=T))

x

Вывод следующий:

    > x
  SN Name        partials
1  1  aaa c("aa1", "aa2")
2  2  bbb    character(0)

Однако я ожидаю следующий вывод:

https://s tackru.com/images/43aade3a4f195b219b2c70702c01566369267e4f.png

Есть идеи?

1 ответ

Решение

Вы, наверное, ищете это.

Во-первых, sapply() ничего не выдает, если character(0), Чтобы предотвратить это, вы могли бы сказать, что это NA или текст "character(0)" если ты действительно этого хочешь.

z <- setNames(sapply(x$Name, function(a) {
  ag <- agrep(a, y$Name, max.distance=1, value=TRUE)
  if (identical(ag, character(0))) NA  # set to "character(0)" at will
  else ag
  }), x$Name)

Затем преобразуйте полученный список в матрицу.

z <- do.call(rbind, z)

Мы должны melt() это, чтобы получить правильный формат. Хороший путь с data.table,

library(data.table)
z <- setNames(melt(z)[-2], c("Name", "partials"))

Теперь мы просто объединяем x с новыми данными, чтобы получить результат, обеспечивая уникальные строки z,

res <- merge(x, unique(z))[c(2, 1, 3)]

> res
  SN Name partials
1  1  aaa      aa1
2  1  aaa      aa2
3  2  bbb     <NA>
Другие вопросы по тегам