Описание тега data-wrangling

Вопросы с тегом

1 ответ

Получение KeyError при группировке моего набора данных в 2 образца

Я прохожу онлайн-курс. "bikesharing_data" - это имя объекта pandas, а "рабочий день" - это имя столбца в этом фрейме данных. Репетитор хочет разделить набор данных на две выборки и разделить "рабочий день" на ([0, 1]) группы. Вот что она написала: s…

21 апр '20 в 16:05

0 ответов

Как использовать переменную "Дата" с R

Как использовать переменную, такую как "Дата", и изменить структуру "Даты" на 1 для 5 февраля 2010 г. (начиная с # с самой ранней даты по порядку). Как написать для этого код? df = read.csv(file.choose()) head(df) Output: Store Date Weekly_Sales H…

r data-science rstudio data-manipulation data-wrangling

28 май '20 в 10:29

1 ответ

R - добавить значения (полученные по формуле) в столбец фрейма данных на основе условия, которому соответствуют значения в столбце другого фрейма данных

Вот пример набора данных: data = data.frame('Cat' = c('A', 'A', 'A', 'B', 'B', 'C', 'C', 'C', 'C', 'C'), 'Value' = c(1,1,1,2,2,3,3,3,3,3)) data Другой фрейм данных: a = data.frame('Name' = c('A', 'B', 'C', 'D')) Желаемый результат: Я хочу понять, ка…

r dataframe median data-wrangling

28 авг '20 в 07:21

2 ответа

Проверьте, существует ли значение из одного кадра данных в другом кадре данных в R

Могут мне помочь, как это сделать в программировании на R? Пожалуйста, проверьте ссылку, у меня такая же ситуация Проверьте, существует ли значение из одного фрейма данных в другом фрейме данных

r dataframe data-wrangling

06 июл '20 в 18:42

3 ответа

Как преобразовать строку в столбец на основе одной строки в R?

У меня есть набор данных, который выглядит примерно так A B 1960 1970 1980 x a 1 2 3 x b 1.1 2.1 NA y a 2 3 4 y b 1 NA 1 Я хочу преобразовать столбцы на основе строки B, чтобы она выглядела примерно так A year a b x 1960 1 1.1 x 1970 2 2.1 x 1980 3 …

r matrix transform data-manipulation data-wrangling

04 май '20 в 16:28

2 ответа

Создайте случайную двоичную переменную для подмножества наблюдений, присвоив 1 определенной доле строк

У меня есть датафрейм... df <- tibble( id = 1:10, family = c("a","a","b","b","c", "d", "e", "f", "g", "h") ) Семьи могут состоять максимум из двух человек (по отдельности или парами). Для отдельных лиц (семей только с одной строкой, т.е. id = 5:1…

r random tidyverse data-wrangling mutate

01 июн '20 в 14:34

2 ответа

Как очистить эти данные

Из этого: +------+------+--------------------------+-----------------+ | code | type | name | final_component | +------+------+--------------------------+-----------------+ | C001 | ACT | Exhaust Blower Drive | | | C001 | AL | | | | C001 | AL | | | …

python data-cleaning data-wrangling

03 сен '20 в 06:57

1 ответ

Сдвиг слотов в фрейме данных с помощью pyspark

У меня есть фреймворк с четырьмя столбцами, как показано ниже, и для каждого клиента у меня есть 12 строк с подробностями ниже, как показано в образце. Cust_id|slot|trigger_id|coup_type 1| 1| 2101| null 1| 2| 2102| null 1| 3| 2103| null 1| 4| 2104| …

python pyspark analytics data-analysis data-wrangling

21 авг '20 в 23:11

1 ответ

Обработка данных в Shiny: построение недавно обработанных данных после анализа кластеризации k-средних

Я пытаюсь создать панель инструментов для анализа данных, и я использую Shiny, в котором я относительно новичок. Одна из функций моей панели инструментов использует кластеризацию k-средних для пользовательских данных. Я могу заставить кластерный ана…

r ggplot2 shiny k-means data-wrangling

06 июл '20 в 20:23

0 ответов

Как справиться с ошибкой: ValueError: невозможно переиндексировать дублирующую ось из Pandas.Series.explode()

У меня очень большой dataset около 400 тыс. строк. Что-то в этом роде, это не полный набор данных. Я приложил небольшой образец большого набора данных d = pd.DataFrame({'age': {0: 66.0, 1: 66.0, 2: 66.0, 3: 66.0, 4: 66.0, 5: 66.0, 6: 66.0, 7: 66.0, …

python pandas dataframe data-manipulation data-wrangling

20 мар '20 в 21:05

2 ответа

Как перебирать и подсчитывать каждое категориальное значение на основе некоторого условия

Я работал над набором данных и хочу перебрать каждое значение, чтобы найти количество рабочих мест и семейное положение на основе депозита. Пример: ht tps://stackru.com/images/1dacce1138471c6098d83c691c6660d5c93d1117.png ht tps://stackru.com/images/…

python pandas data-mining data-wrangling

14 июн '20 в 11:23

1 ответ

приблизительное сопоставление символов с использованием R

У меня есть два файла данных. Один из файлов содержит только один столбец с названием компании (обычно это больница), а другой содержит список компаний с соответствующими адресами. Проблема в том, что названия компаний не совсем совпадают. Как я мог…

r dplyr character data-wrangling

14 фев '20 в 16:05

0 ответов

Python pandas способ проверить, если какое-либо значение (col1) между двумя датами (col2 и col3) на df1 ВХОДИТ или НЕ ПОЛНОСТЬЮ В любом временном интервале df2?

Это что-то вроде, df1: col1 col2 col3 11 2019-12-31 15:30:00 2020-01-02 22:15:00 11 2019-04-25 12:00:00 2020-05-01 12:00:00 11 2020-02-20 08:30:00 2020-03-02 12:00:00 12 2018-10-29 11:00:00 2018-10-29 13:00:00 18 2019-05-02 10:00:00 2019-05-02 20:00…

python pandas dataframe analytics data-wrangling

24 янв '20 в 06:34

1 ответ

Расчет количества наблюдений на группу в R

Я хотел бы рассчитать столбец D на основе столбца даты A. Столбец D должен представлять количество наблюдений, сгруппированных по столбцу B. Изменить: поддельные данные ниже data <- structure(list(date = structure(c(1L, 2L, 3L, 4L, 5L, 6L, 9L, 10…

r dplyr group-by data-wrangling mutate

26 янв '20 в 03:57

1 ответ

Как отобразить средние результаты вменения из обучающего набора в тестовый набор?

У меня есть вектор: mean_imputed_values_trainining_set <- c(0.5247570, 0.4077914,0.1393320,0.8233340, 0.3610365,0.1805526, 0.2375011, 9.8848462 ) Я попытался создать настраиваемую функцию, в которой результаты вектора будут вменять значения NA. П…

r dataframe dplyr tidyverse data-wrangling

01 фев '20 в 22:29

1 ответ

Фабрика данных Azure: имя таблицы динамической базы данных набора данных не разрешается в потоке обработки данных

Я создал DataSet, который указывает на таблицу в моей базе данных. Имя таблицы задано как динамическое содержимое:@concat(dataset().db_prefix, '_Baseline_CIs'). Это работает при проверке набора данных через "Предварительный просмотр данных". Отображ…

azure-data-factory data-wrangling dataflow

11 фев '20 в 11:40

3 ответа

Заполнение пустых значений в столбце фрейма данных, имеющих такие значения, как 40-45', nan,' 40-45', nan,

У меня есть фрейм данных, в одном конкретном столбце которого есть значения температуры, как показано ниже. '35-40', '35-40', '40-45', '40-45', '45-50', '40-45', '40-45', nan, '40-45', nan, '40-45', '40-45', '35-40', Я пытаюсь создать новый столбец,…

python pandas numpy data-wrangling

01 мар '20 в 17:16

2 ответа

Разделение многострочных транзакций на основе значений строк

У меня есть набор данных о розничных транзакциях, который выглядит так: TRANSID GROSS AMNT TRANSROWTYPE 123 50 Z 123 20 A 123 30 A 126 90 Z 126 20 A 126 30 A 126 20 A … .. . Где,• TRANDISэто идентификатор транзакции• GROSS AMNTэто общая сумма для ст…

r dplyr data-wrangling

20 мар '20 в 01:00

1 ответ

Ошибка со "стандартной однозначной датой" для преобразования строки в дату в R

Итак, я пробую этот код, который я использовал в прошлом с другими задачами обработки данных без ошибок: ## Create an age_at_enrollment variable, based on the start_date per individual (i.e. I want to know an individual's age, when they began their …

tidyverse date-format date-formatting data-wrangling as.date

22 мар '20 в 06:32

1 ответ

Фрейм данных Wrangle в R, возможно, с dcast

У меня data.frame довольно большой, и мне нужно немного его повозить. текущая структура: V1 V2 V3 V4 V5 V6 V7 V8 ... Vn Vn+1 chr1 1 A T sample_1 value_1 sample_2 value_4 ... sample_n value_7 chr1 40 T C sample_1 value_2 sample_2 value_5 ... sample_n…

r data-wrangling reshape2 wrangle

23 мар '20 в 15:56