Описание тега fuzzyjoin

Пакет R для объединения таблиц при неточном сопоставлении.
1 ответ

Соединение Dplyr по максимальному значению соответствия, если точное совпадение невозможно

Я пытаюсь объединить две таблицы в dplyr. Иногда возможно точное совпадение по году столбца, но в некоторых случаях совпадающий год недоступен. В этом случае я хотел бы присоединиться к максимальному году Left <- tibble(id = c(1,2,3), year = c(20…
10 янв '18 в 10:35
1 ответ

Нечеткое сопоставление / объединение двух фреймов данных названий университетов

У меня есть список названий университетов с орфографическими ошибками и несоответствиями. Мне нужно сопоставить их с официальным списком названий университетов, чтобы связать мои данные. Я знаю, что нечеткое сопоставление / соединение - это мой путь…
30 окт '18 в 19:53
0 ответов

Параллельный Fuzzyjoin

Я пытаюсь ускорить fuzzyjoin с параллельной обработкой. У меня есть два фрейма данных, каждый с несколькими тысячами строк, каждый из которых должен быть частично регулярным выражением. Однако в настоящее время это занимает более 40 минут на одном я…
16 ноя '17 в 20:32
1 ответ

Выполнение "fuzzyjoin" (и не fuzzyjoin) в сочетании со слиянием в data.table

Я использую несколько баз данных. Для каждой из этих баз данных я создал ключ matchcode, это matchcode является комбинацией кода страны и года. В основном, когда я объединяю эти наборы данных, я просто делаю: dfA<- merge(dfA, dfB, by= "matchcode"…
26 дек '18 в 11:32
1 ответ

Ошибка в запросе rsqlite_send_query(conn@ptr, оператор): повторяющееся имя столбца: Ret

У меня есть куча SQL-запросов, которые работали нормально, но теперь, по некоторым причинам, больше не работают. Данные не изменились. Код не изменился. Я продолжаю получать это сообщение об ошибке: Ошибка в запросе rsqlite_send_query (conn @ ptr, о…
13 июл '17 в 09:52
2 ответа

Частичное совпадение строк в R и обрезка символов

Вот датафрейм и вектор. df1 <- tibble(var1 = c("abcd", "efgh", "ijkl", "mnopqr", "qrst")) vec <- c("ab", "mnop", "ijk") Теперь, для всех значений в var1, которые соответствуют ближайшим (я хотел бы сопоставить первые n символов) со значениями …
28 июн '18 в 17:26
1 ответ

Условное соединение фреймов данных R

У меня есть довольно простая проблема, которую я не могу понять правильно. У меня есть два фрейма данных, первый из которых содержит только даты (каждый месяц в течение нескольких лет), второй также содержит даты и некоторые другие данные, но только…
09 окт '18 в 17:31
1 ответ

Объединить строки во фрейме данных, которые имеют похожие (но не равные) значения

У меня есть df лайк: SampleID Chr Start End Strand Value 1: rep1 1 11001 12000 - 10 2: rep1 1 15000 20100 - 5 3: rep2 1 11070 12050 - 1 4: rep3 1 14950 20090 + 20 ... И я хочу объединить строки, которые разделяют chr а также strand и имеют одинаковы…
18 ноя '17 в 09:59
0 ответов

Как применить несколько нечетких объединений к одному фрейму данных

У меня есть следующая проблема, связанная с сопоставлением различных фреймов данных. Во-первых, у меня есть следующая таблица: table<-data.frame(brand=c('duna','cars','cars','sea','sea','sea','mega','moon','moon'),model=c('mm','mm','mm','ll','ll'…
17 авг '17 в 13:16
1 ответ

Объединить кадры данных по интервалу времени в R

У меня есть две рамки данных. Одним из них является фрейм данных Eye Tracking с предметом, условием, временной меткой, положением и положением. В нем более 400000 строк. Вот набор игрушечных данных для примера: subid condition time xpos ypos 1 1 1 1…
11 авг '17 в 01:06
0 ответов

Объединение по диапазону дат и идентификатору, данным панели

У меня есть основные данные фонда, я хочу добавить имя управляющего по диапазону дат и идентификатору фонда Я попробовал нечеткое право присоединитьсяx = fuzzy_right_join(manager, fundret, by = c("fundName" = "fundName", "date"= "managerStartdate", …
18 янв '19 в 05:44
0 ответов

Нечеткое сопоставление и извлечение строк из строкового вектора для завершения кадра данных

У меня есть список французских имен с некоторыми небольшими синтаксическими различиями. names <- c("Benoit", "Arnoud (son)", "Arnoud", "Arnous", "Archer, Patrice*", "Archer", "Archer (father)", "André" ) "Арноуд (сын)", "Арноуд", "Арноус" - все э…
10 фев '19 в 10:00
1 ответ

Нечеткое соединение с перестановками в строках

Я использую fuzzyjoin пересекать политиков и их соответствующие регионы: library(dplyr) library(fuzzyjoin) x <- tibble(name = c("Fulvio Rossi Ciocca", "Rigoberto Del Carmen Rojas Sarapura", "Lorena Vergara Bravo", "Lily Perez San Martin"), activi…
02 фев '18 в 16:03
1 ответ

R: нечеткое соединение между двумя наборами данных

Мне нужно нечеткое совпадение и получить расстояние между почтовым индексом в двух наборах данных. Вот ниже пример: name_a <- c("Aldo", "Andrea", "Alberto", "Antonio", "Angelo") name_b <- c("Sara", "Serena", "Silvia", "Sonia", "Sissi") zip_str…
12 июл '18 в 13:50
3 ответа

R - нечеткое объединение только для ближайшего целого числа

Предположим, у меня есть этот набор данных для начала, в этой глупой компоновке: originalDF <- data.frame( Index = 1:14, Field = c("Name", "Weight", "Age", "Name", "Weight", "Age", "Height", "Name", "Weight", "Age", "Height", "Name", "Age", "Heig…
16 янв '19 в 18:55
0 ответов

Fuzzyjoin совпадение, основанное на двух разных столбцах вместо одного?

Я хотел бы задать вопрос относительно пакета fuzzyjoin. Я очень новичок в R, и я обещаю, что прочитал файл readme и следовал за примерами на https://cran.r-project.org/web/packages/fuzzyjoin/index.html прежде чем задал этот вопрос. У меня есть списо…
08 май '18 в 18:36
1 ответ

Делая "нечеткие" и нечеткие, многие в 1 сливаются с data.table

Допустим, у меня есть две базы данных dfA а также dfB, У одного есть индивидуальные наблюдения, а у другого - данные на уровне страны (которые применимы к нескольким наблюдениям одного и того же года и страны). Для каждой из этих баз данных я создал…
04 янв '19 в 11:42
0 ответов

Нечеткое соответствие в последовательностях ДНК

Для целей репрезентации я создал тиббл random_DNA_tbl, который представляет собой случайный выбор из 10 последовательностей ДНК (из 100 оснований). У меня есть отдельный тиббл, называемый subseq_tbl, с 3 более короткими последовательностями, которые…
15 фев '18 в 18:17
1 ответ

R: Regex_Join/Fuzzy_Join - объединяет неточные строки в разных порядках слов

df1 df2 DF3 library(dplyr) library(fuzzyjoin) df1 <- tibble(a =c("Apple Pear Orange", "Sock Shoe Hat", "Cat Mouse Dog")) df2 <- tibble(b =c("Kiwi Lemon Apple", "Shirt Sock Glove", "Mouse Dog"), c = c("Fruit", "Clothes", "Animals")) # Appends '…
07 янв '19 в 18:05
1 ответ

Объединение двух таблиц, где один столбец является подстрокой другого в R

У меня есть два data.frames со столбцами, которые содержат номера доступа подмножество df 1: sub_df1 <- structure(list(database = "CLO, ArrayExpress, ArrayExpress, ATCC, BCRJ, BioSample, CCLE, ChEMBL-Cells, ChEMBL-Targets, Cosmic, Cosmic, Cosmic,…
11 фев '19 в 18:49