Описание тега data-wrangling
1
ответ
Получение KeyError при группировке моего набора данных в 2 образца
Я прохожу онлайн-курс. "bikesharing_data" - это имя объекта pandas, а "рабочий день" - это имя столбца в этом фрейме данных. Репетитор хочет разделить набор данных на две выборки и разделить "рабочий день" на ([0, 1]) группы. Вот что она написала: s…
21 апр '20 в 16:05
0
ответов
Как использовать переменную "Дата" с R
Как использовать переменную, такую как "Дата", и изменить структуру "Даты" на 1 для 5 февраля 2010 г. (начиная с # с самой ранней даты по порядку). Как написать для этого код? df = read.csv(file.choose()) head(df) Output: Store Date Weekly_Sales H…
28 май '20 в 10:29
1
ответ
R - добавить значения (полученные по формуле) в столбец фрейма данных на основе условия, которому соответствуют значения в столбце другого фрейма данных
Вот пример набора данных: data = data.frame('Cat' = c('A', 'A', 'A', 'B', 'B', 'C', 'C', 'C', 'C', 'C'), 'Value' = c(1,1,1,2,2,3,3,3,3,3)) data Другой фрейм данных: a = data.frame('Name' = c('A', 'B', 'C', 'D')) Желаемый результат: Я хочу понять, ка…
28 авг '20 в 07:21
2
ответа
Проверьте, существует ли значение из одного кадра данных в другом кадре данных в R
Могут мне помочь, как это сделать в программировании на R? Пожалуйста, проверьте ссылку, у меня такая же ситуация Проверьте, существует ли значение из одного фрейма данных в другом фрейме данных
06 июл '20 в 18:42
3
ответа
Как преобразовать строку в столбец на основе одной строки в R?
У меня есть набор данных, который выглядит примерно так A B 1960 1970 1980 x a 1 2 3 x b 1.1 2.1 NA y a 2 3 4 y b 1 NA 1 Я хочу преобразовать столбцы на основе строки B, чтобы она выглядела примерно так A year a b x 1960 1 1.1 x 1970 2 2.1 x 1980 3 …
04 май '20 в 16:28
2
ответа
Создайте случайную двоичную переменную для подмножества наблюдений, присвоив 1 определенной доле строк
У меня есть датафрейм... df <- tibble( id = 1:10, family = c("a","a","b","b","c", "d", "e", "f", "g", "h") ) Семьи могут состоять максимум из двух человек (по отдельности или парами). Для отдельных лиц (семей только с одной строкой, т.е. id = 5:1…
01 июн '20 в 14:34
2
ответа
Как очистить эти данные
Из этого: +------+------+--------------------------+-----------------+ | code | type | name | final_component | +------+------+--------------------------+-----------------+ | C001 | ACT | Exhaust Blower Drive | | | C001 | AL | | | | C001 | AL | | | …
03 сен '20 в 06:57
1
ответ
Сдвиг слотов в фрейме данных с помощью pyspark
У меня есть фреймворк с четырьмя столбцами, как показано ниже, и для каждого клиента у меня есть 12 строк с подробностями ниже, как показано в образце. Cust_id|slot|trigger_id|coup_type 1| 1| 2101| null 1| 2| 2102| null 1| 3| 2103| null 1| 4| 2104| …
21 авг '20 в 23:11
1
ответ
Обработка данных в Shiny: построение недавно обработанных данных после анализа кластеризации k-средних
Я пытаюсь создать панель инструментов для анализа данных, и я использую Shiny, в котором я относительно новичок. Одна из функций моей панели инструментов использует кластеризацию k-средних для пользовательских данных. Я могу заставить кластерный ана…
06 июл '20 в 20:23
0
ответов
Как справиться с ошибкой: ValueError: невозможно переиндексировать дублирующую ось из Pandas.Series.explode()
У меня очень большой dataset около 400 тыс. строк. Что-то в этом роде, это не полный набор данных. Я приложил небольшой образец большого набора данных d = pd.DataFrame({'age': {0: 66.0, 1: 66.0, 2: 66.0, 3: 66.0, 4: 66.0, 5: 66.0, 6: 66.0, 7: 66.0, …
20 мар '20 в 21:05
2
ответа
Как перебирать и подсчитывать каждое категориальное значение на основе некоторого условия
Я работал над набором данных и хочу перебрать каждое значение, чтобы найти количество рабочих мест и семейное положение на основе депозита. Пример: ht tps://stackru.com/images/1dacce1138471c6098d83c691c6660d5c93d1117.png ht tps://stackru.com/images/…
14 июн '20 в 11:23
1
ответ
приблизительное сопоставление символов с использованием R
У меня есть два файла данных. Один из файлов содержит только один столбец с названием компании (обычно это больница), а другой содержит список компаний с соответствующими адресами. Проблема в том, что названия компаний не совсем совпадают. Как я мог…
14 фев '20 в 16:05
0
ответов
Python pandas способ проверить, если какое-либо значение (col1) между двумя датами (col2 и col3) на df1 ВХОДИТ или НЕ ПОЛНОСТЬЮ В любом временном интервале df2?
Это что-то вроде, df1: col1 col2 col3 11 2019-12-31 15:30:00 2020-01-02 22:15:00 11 2019-04-25 12:00:00 2020-05-01 12:00:00 11 2020-02-20 08:30:00 2020-03-02 12:00:00 12 2018-10-29 11:00:00 2018-10-29 13:00:00 18 2019-05-02 10:00:00 2019-05-02 20:00…
24 янв '20 в 06:34
1
ответ
Расчет количества наблюдений на группу в R
Я хотел бы рассчитать столбец D на основе столбца даты A. Столбец D должен представлять количество наблюдений, сгруппированных по столбцу B. Изменить: поддельные данные ниже data <- structure(list(date = structure(c(1L, 2L, 3L, 4L, 5L, 6L, 9L, 10…
26 янв '20 в 03:57
1
ответ
Как отобразить средние результаты вменения из обучающего набора в тестовый набор?
У меня есть вектор: mean_imputed_values_trainining_set <- c(0.5247570, 0.4077914,0.1393320,0.8233340, 0.3610365,0.1805526, 0.2375011, 9.8848462 ) Я попытался создать настраиваемую функцию, в которой результаты вектора будут вменять значения NA. П…
01 фев '20 в 22:29
1
ответ
Фабрика данных Azure: имя таблицы динамической базы данных набора данных не разрешается в потоке обработки данных
Я создал DataSet, который указывает на таблицу в моей базе данных. Имя таблицы задано как динамическое содержимое:@concat(dataset().db_prefix, '_Baseline_CIs'). Это работает при проверке набора данных через "Предварительный просмотр данных". Отображ…
11 фев '20 в 11:40
3
ответа
Заполнение пустых значений в столбце фрейма данных, имеющих такие значения, как 40-45', nan,' 40-45', nan,
У меня есть фрейм данных, в одном конкретном столбце которого есть значения температуры, как показано ниже. '35-40', '35-40', '40-45', '40-45', '45-50', '40-45', '40-45', nan, '40-45', nan, '40-45', '40-45', '35-40', Я пытаюсь создать новый столбец,…
01 мар '20 в 17:16
2
ответа
Разделение многострочных транзакций на основе значений строк
У меня есть набор данных о розничных транзакциях, который выглядит так: TRANSID GROSS AMNT TRANSROWTYPE 123 50 Z 123 20 A 123 30 A 126 90 Z 126 20 A 126 30 A 126 20 A … .. . Где,• TRANDISэто идентификатор транзакции• GROSS AMNTэто общая сумма для ст…
20 мар '20 в 01:00
1
ответ
Ошибка со "стандартной однозначной датой" для преобразования строки в дату в R
Итак, я пробую этот код, который я использовал в прошлом с другими задачами обработки данных без ошибок: ## Create an age_at_enrollment variable, based on the start_date per individual (i.e. I want to know an individual's age, when they began their …
22 мар '20 в 06:32
1
ответ
Фрейм данных Wrangle в R, возможно, с dcast
У меня data.frame довольно большой, и мне нужно немного его повозить. текущая структура: V1 V2 V3 V4 V5 V6 V7 V8 ... Vn Vn+1 chr1 1 A T sample_1 value_1 sample_2 value_4 ... sample_n value_7 chr1 40 T C sample_1 value_2 sample_2 value_5 ... sample_n…
23 мар '20 в 15:56