Описание тега data-munging

Процесс сбора необработанных данных и их анализа, фильтрации, извлечения, организации, объединения, очистки или иного преобразования в согласованную пригодную для использования форму для дальнейшей обработки или ввода в алгоритм или систему.
0 ответов

Применить значения столбцов факторов к новым столбцам в R

Проделал обширный поиск, но не смог найти решение. У меня есть датафрейм, который выглядит так: FAC | NUM | VAL A | 1 | 100 A | 2 | 200 B | 1 | 300 B | 2 | 200 И я хочу, чтобы это выглядело так: NUM | A | B 1 | 100 | 300 2 | 200 | 200 Есть ли просто…
10 авг '17 в 04:22
2 ответа

Чтение CSV-файла в DataTable с использованием C#?

У меня есть несколько сценариев Python, которые я написал некоторое время назад, чтобы провести анализ данных. Мне нужно "портировать" некоторые из этих скриптов на C#. Python предоставляет модуль CSV, который облегчает импорт данных CSV из файла в …
02 авг '11 в 16:53
1 ответ

Как разделить или создать новый столбец для списка данных в кадре данных?

Пожалуйста, посмотрите на предварительный просмотр данных в изображении. Я хотел бы создать 3 новых столбца, т.е. Start, End, Density и создать новую строку для каждой записи в этих 3 столбцах.
06 авг '18 в 15:46
0 ответов

Тика испортила структуру моего документа, как это исправить?

После извлечения текстового содержимого из некоторых файлов PDF я заметил, что tika неправильно выровнял текст моего документа, например, мой оригинальный документ PDF выглядит так: Animal name: Cat Food stock: Avalaible type: male После использован…
15 май '17 в 16:52
1 ответ

Преобразуйте папку CSV-файлов таким же образом, затем выведите несколько фреймов данных с помощью Python.

У меня есть папка csv-файлов, которые мне нужно преобразовать и манипулировать / очистить, выводя фрейм данных, с которым я затем смогу продолжить работу. Я хотел бы, чтобы один файл данных имел уникальное название для каждого файла CSV. Я написал к…
16 июн '17 в 16:12
5 ответов

R: цикл через каждые 5 строк фрейма данных и вложение инкрементного значения

Я пытаюсь вменять инкрементные значения для каждых 5 строк кадра данных. Я новичок в R и не уверен, как этого добиться. Входные данные: state Value a 1 b 2 a 3 c 4 a 5 e 6 f 7 w 8 f 9 s 10 e 11 r 12 s 13 s 14 Желаемый результат: state Value Incremen…
10 дек '18 в 17:33
1 ответ

Строки группы данных в pandas на основе определенного столбца

У меня есть таблица, которая выглядит так: P_id S_id Time 1 20 A 15 2 30 B 50 3 50 A 99 4 70 A 60 Я хочу сгруппировать таблицу на основе столбца "Sid" и отсортировать по столбцу "Time", чтобы она выглядела следующим образом: P_id S_id 1 20,70,50 A 2…
13 дек '18 в 10:15
2 ответа

Даты в R

Я работаю над конвейером обработки данных с большим количеством столбцов даты в данных. Многие функции R (например, операции над множествами, sapplyи т. д.) не сохраняйте класс даты, конвертируя даты в целые числа. Стратегии, которые я вижу, чтобы с…
01 янв '18 в 16:14
1 ответ

Плавление данных по диапазону дат

Я сталкиваюсь с проблемой данных RStudio относительно правильного таяния данных. В настоящее время он находится в следующей форме: Кампания, идентификатор, дата начала, дата окончания, общее количество дней, общее количество расходов, общее количест…
31 янв '19 в 20:06
2 ответа

Фильтр данных pandas по последовательности значений в определенном столбце

У меня есть датафрейм азбука 1 2 3 2 3 4 3 8 7 Я хочу взять только строки, где есть последовательность 3,4 в столбцах C (в этом сценарии - первые две строки) Каков будет лучший способ сделать это?
05 сен '18 в 10:46
4 ответа

Скриптинг с C#?

Я широко использовал Python для выполнения различных операций по сбору данных и вспомогательных задач. Поскольку я изучаю C#, я думаю, было бы интересно посмотреть, смогу ли я переписать некоторые из этих сценариев в C#. Есть ли исполняемый файл, ко…
18 май '11 в 07:37
2 ответа

Корректировка промежуточных итогов в необработанных данных

Это типичная проблема для аналитиков бюджета Конгресса, работающих с грязными данными. Dataframe показывает суммы, запрошенные и авторизованные для каждого элемента. Утвержденная сумма иногда больше или меньше запрашиваемой суммы. Когда это происход…
08 июн '18 в 04:02
0 ответов

Параллельно выполнять шаги по сбору данных для каждого компонента списка

У меня есть список с двумя объектами data.table в нем. Чтобы дать представление, одна таблица получила 400 000 строк и 7 переменных, другая - 750 000 строк и 12 переменных. Эти две таблицы не имеют одинаковых столбцов. Я делаю много уроков (разные ш…
2 ответа

Обработка данных с помощью Flask: как это сделать с помощью языка SQL? Имеет ли смысл использовать панд?

Совершенно новый для SQL, и работа с колбой и sqlalchemy здесь моя проблема (надеюсь, это не слишком долго) Обзор: У меня есть таблица SQL, структурированная так: name vector axis value unit ref ------------------------------------------------------…
21 дек '13 в 10:34
2 ответа

R - анализ данных и масштабируемый код

Хай, в последние дни у меня была маленькая / большая проблема. У меня есть набор данных транзакции с 1 миллионом строк и двумя столбцами (идентификатор клиента и идентификатор продукта), и я хочу преобразовать это в двоичную матрицу. Я использовал ф…
19 ноя '15 в 10:54
1 ответ

Расширение строк фрейма данных панд на основе номера и идентификатора группы (Python 3).

Я изо всех сил пытался найти способ расширить / клонировать ряды наблюдений на основе заранее определенного числа и переменной группировки (id). Для контекста, вот пример фрейма данных с использованием панд и numpy (python3). df = pd.DataFrame([[1, …
28 дек '17 в 17:51
3 ответа

Обработка данных с помощью Python: преобразование строки в строки

Я довольно новичок в Python, и мне нужно выполнить некоторые данные. Мне нужен совет относительно наилучшей практики для этого: библиотеки, модули, лучший код для реализации или просто руководство. Итак, у меня есть текстовый файл с данными, организ…
12 июл '17 в 11:00
6 ответов

Как сделать вид смешанных значений в R

У меня есть фрейм данных, который я хочу отсортировать на один столбец, чем на следующий (при помощи tidyverse, если это возможно). Я проверил адрес ниже, но решения, похоже, не работают. Заказать "смешанный" вектор (цифры с буквами) Пример кода для…
05 апр '18 в 20:09
1 ответ

dplyr рушатся периоды времени

У меня есть data.frame ниже, и я хочу "разделить" периоды времени так, чтобы для каждого company_id он "сворачивал" периоды времени в те, которые разделены на тридцать дней. company_id startDate endDate 1 209952 2012-09-17 2012-10-17 2 209952 2012-1…
25 окт '17 в 19:02
3 ответа

Как переместить мой информационный фрейм pandas в d3?

Я новичок в Python и проработал несколько книг по нему. Все отлично, кроме визуализаций. Мне очень не нравится matplotlib, а Bokeh требует слишком большой стек. Рабочий процесс, который я хочу: Анализ данных с использованием панд в блокноте ipython …
14 май '14 в 15:39