Описание тега fuzzyjoin
Пакет R для объединения таблиц при неточном сопоставлении.
1
ответ
Соединение Dplyr по максимальному значению соответствия, если точное совпадение невозможно
Я пытаюсь объединить две таблицы в dplyr. Иногда возможно точное совпадение по году столбца, но в некоторых случаях совпадающий год недоступен. В этом случае я хотел бы присоединиться к максимальному году Left <- tibble(id = c(1,2,3), year = c(20…
10 янв '18 в 10:35
1
ответ
Нечеткое сопоставление / объединение двух фреймов данных названий университетов
У меня есть список названий университетов с орфографическими ошибками и несоответствиями. Мне нужно сопоставить их с официальным списком названий университетов, чтобы связать мои данные. Я знаю, что нечеткое сопоставление / соединение - это мой путь…
30 окт '18 в 19:53
0
ответов
Параллельный Fuzzyjoin
Я пытаюсь ускорить fuzzyjoin с параллельной обработкой. У меня есть два фрейма данных, каждый с несколькими тысячами строк, каждый из которых должен быть частично регулярным выражением. Однако в настоящее время это занимает более 40 минут на одном я…
16 ноя '17 в 20:32
1
ответ
Выполнение "fuzzyjoin" (и не fuzzyjoin) в сочетании со слиянием в data.table
Я использую несколько баз данных. Для каждой из этих баз данных я создал ключ matchcode, это matchcode является комбинацией кода страны и года. В основном, когда я объединяю эти наборы данных, я просто делаю: dfA<- merge(dfA, dfB, by= "matchcode"…
26 дек '18 в 11:32
1
ответ
Ошибка в запросе rsqlite_send_query(conn@ptr, оператор): повторяющееся имя столбца: Ret
У меня есть куча SQL-запросов, которые работали нормально, но теперь, по некоторым причинам, больше не работают. Данные не изменились. Код не изменился. Я продолжаю получать это сообщение об ошибке: Ошибка в запросе rsqlite_send_query (conn @ ptr, о…
13 июл '17 в 09:52
2
ответа
Частичное совпадение строк в R и обрезка символов
Вот датафрейм и вектор. df1 <- tibble(var1 = c("abcd", "efgh", "ijkl", "mnopqr", "qrst")) vec <- c("ab", "mnop", "ijk") Теперь, для всех значений в var1, которые соответствуют ближайшим (я хотел бы сопоставить первые n символов) со значениями …
28 июн '18 в 17:26
1
ответ
Условное соединение фреймов данных R
У меня есть довольно простая проблема, которую я не могу понять правильно. У меня есть два фрейма данных, первый из которых содержит только даты (каждый месяц в течение нескольких лет), второй также содержит даты и некоторые другие данные, но только…
09 окт '18 в 17:31
1
ответ
Объединить строки во фрейме данных, которые имеют похожие (но не равные) значения
У меня есть df лайк: SampleID Chr Start End Strand Value 1: rep1 1 11001 12000 - 10 2: rep1 1 15000 20100 - 5 3: rep2 1 11070 12050 - 1 4: rep3 1 14950 20090 + 20 ... И я хочу объединить строки, которые разделяют chr а также strand и имеют одинаковы…
18 ноя '17 в 09:59
0
ответов
Как применить несколько нечетких объединений к одному фрейму данных
У меня есть следующая проблема, связанная с сопоставлением различных фреймов данных. Во-первых, у меня есть следующая таблица: table<-data.frame(brand=c('duna','cars','cars','sea','sea','sea','mega','moon','moon'),model=c('mm','mm','mm','ll','ll'…
17 авг '17 в 13:16
1
ответ
Объединить кадры данных по интервалу времени в R
У меня есть две рамки данных. Одним из них является фрейм данных Eye Tracking с предметом, условием, временной меткой, положением и положением. В нем более 400000 строк. Вот набор игрушечных данных для примера: subid condition time xpos ypos 1 1 1 1…
11 авг '17 в 01:06
0
ответов
Объединение по диапазону дат и идентификатору, данным панели
У меня есть основные данные фонда, я хочу добавить имя управляющего по диапазону дат и идентификатору фонда Я попробовал нечеткое право присоединитьсяx = fuzzy_right_join(manager, fundret, by = c("fundName" = "fundName", "date"= "managerStartdate", …
18 янв '19 в 05:44
0
ответов
Нечеткое сопоставление и извлечение строк из строкового вектора для завершения кадра данных
У меня есть список французских имен с некоторыми небольшими синтаксическими различиями. names <- c("Benoit", "Arnoud (son)", "Arnoud", "Arnous", "Archer, Patrice*", "Archer", "Archer (father)", "André" ) "Арноуд (сын)", "Арноуд", "Арноус" - все э…
10 фев '19 в 10:00
1
ответ
Нечеткое соединение с перестановками в строках
Я использую fuzzyjoin пересекать политиков и их соответствующие регионы: library(dplyr) library(fuzzyjoin) x <- tibble(name = c("Fulvio Rossi Ciocca", "Rigoberto Del Carmen Rojas Sarapura", "Lorena Vergara Bravo", "Lily Perez San Martin"), activi…
02 фев '18 в 16:03
1
ответ
R: нечеткое соединение между двумя наборами данных
Мне нужно нечеткое совпадение и получить расстояние между почтовым индексом в двух наборах данных. Вот ниже пример: name_a <- c("Aldo", "Andrea", "Alberto", "Antonio", "Angelo") name_b <- c("Sara", "Serena", "Silvia", "Sonia", "Sissi") zip_str…
12 июл '18 в 13:50
3
ответа
R - нечеткое объединение только для ближайшего целого числа
Предположим, у меня есть этот набор данных для начала, в этой глупой компоновке: originalDF <- data.frame( Index = 1:14, Field = c("Name", "Weight", "Age", "Name", "Weight", "Age", "Height", "Name", "Weight", "Age", "Height", "Name", "Age", "Heig…
16 янв '19 в 18:55
0
ответов
Fuzzyjoin совпадение, основанное на двух разных столбцах вместо одного?
Я хотел бы задать вопрос относительно пакета fuzzyjoin. Я очень новичок в R, и я обещаю, что прочитал файл readme и следовал за примерами на https://cran.r-project.org/web/packages/fuzzyjoin/index.html прежде чем задал этот вопрос. У меня есть списо…
08 май '18 в 18:36
1
ответ
Делая "нечеткие" и нечеткие, многие в 1 сливаются с data.table
Допустим, у меня есть две базы данных dfA а также dfB, У одного есть индивидуальные наблюдения, а у другого - данные на уровне страны (которые применимы к нескольким наблюдениям одного и того же года и страны). Для каждой из этих баз данных я создал…
04 янв '19 в 11:42
0
ответов
Нечеткое соответствие в последовательностях ДНК
Для целей репрезентации я создал тиббл random_DNA_tbl, который представляет собой случайный выбор из 10 последовательностей ДНК (из 100 оснований). У меня есть отдельный тиббл, называемый subseq_tbl, с 3 более короткими последовательностями, которые…
15 фев '18 в 18:17
1
ответ
R: Regex_Join/Fuzzy_Join - объединяет неточные строки в разных порядках слов
df1 df2 DF3 library(dplyr) library(fuzzyjoin) df1 <- tibble(a =c("Apple Pear Orange", "Sock Shoe Hat", "Cat Mouse Dog")) df2 <- tibble(b =c("Kiwi Lemon Apple", "Shirt Sock Glove", "Mouse Dog"), c = c("Fruit", "Clothes", "Animals")) # Appends '…
07 янв '19 в 18:05
1
ответ
Объединение двух таблиц, где один столбец является подстрокой другого в R
У меня есть два data.frames со столбцами, которые содержат номера доступа подмножество df 1: sub_df1 <- structure(list(database = "CLO, ArrayExpress, ArrayExpress, ATCC, BCRJ, BioSample, CCLE, ChEMBL-Cells, ChEMBL-Targets, Cosmic, Cosmic, Cosmic,…
11 фев '19 в 18:49