Описание тега data-cleaning

Очистка данных - это процесс удаления или исправления ошибок и нормализации данных, используемых в компьютерных программах. Например, могут быть удалены выбросы, пропущенные выборки могут быть интерполированы, недопустимые значения могут быть помечены как недоступные, а синонимические значения могут быть объединены. Одним из подходов к очистке данных является структура "аккуратных данных" от Wickham, что означает, что каждая строка представляет собой наблюдение, а каждый столбец - переменную.
2 ответа

Как удалить не-ascii символы (например, ᧕ • µ´‡ "Ž®ºÏƒ¶¹) из текстов в столбцах панд данных?

Как удалить не-ascii символы (например, ᧕ • µ´‡ "Ž®ºÏƒ¶¹) из текстов в столбцах панд данных? Я попробовал следующее, но не повезло df = pd.read_csv(path, index_col=0) for col in df.columns: for j in df.index: markup1 = str(df.ix[j, col]).replace(…
30 май '17 в 22:35
1 ответ

Грязные форматы даты во фрейме данных

Я создал для себя задачу, которую не могу решить - есть дата-фрейм с датами начала и окончания некоторых проектов. Некоторые элементы неверны и показывают продолжительность проекта вместо даты окончания. start_date <- c("2017-05-04", "2016-04-01"…
12 авг '18 в 07:02
1 ответ

Философия очистки данных - источник, хранилище данных или интерфейс?

Я нахожусь в традиционном стеке ETL Back to Front от источника данных (Adobe Analytics) до хранилища данных MySQL и внешнего интерфейса Tableau для визуализации. Мой вопрос вращается вокруг лучших практик для очистки данных / картирования и на каком…
1 ответ

Форматирование значений с использованием индексации заголовка csv

У меня есть.csv, который мне нужен, чтобы выглядеть как специально отформатированный словарь, и я не могу обернуть голову вокруг цикла, необходимого для того, чтобы сделать это так, как мне нужно. Например, эти три строки (строка [0] - заголовок с м…
07 мар '16 в 23:33
2 ответа

Поиск слов в текстовом документе и удаление соответствующих строк в фрейме данных - python

У меня есть таблица с 87 миллионов строк и 5 столбцов. У меня тоже есть отдельный файл, около 3500 слов. Я хочу проверить слова в файле.txt и проверить это слово в 4 столбцах таблицы для каждой строки. Если это слово присутствует в любом из столбцов…
18 авг '16 в 17:11
1 ответ

Удалить новую строку из поля в таблице MySQL с помощью запроса

У меня есть таблица в MySQL. У меня есть запись для комментариев, и, поскольку она происходит из текстовой области, она содержит символ новой строки. Теперь, когда я хочу экспортировать его как CSV, у меня есть проблема. Есть ли запрос на замену все…
04 янв '15 в 12:02
1 ответ

Очистка данных в R

У меня есть CSV-файл, который я хочу извлечь только отметку времени предложений, которые содержат toward плюс название плода в этом предложении. Как я могу сделать это в R (или если есть более быстрый способ сделать это, что это?) 143829390072969855…
17 авг '15 в 15:33
2 ответа

Python скрести веб-страницу и разобрать содержимое

Я хочу поцарапать данные по этой ссылке http://www.realclearpolitics.com/epolls/json/5491_historical.js?1453388629140&callback;=return_json Я не уверен, что это за ссылка, html или json или что-то еще. Извините за мои плохие веб-знания. Но я пытаюсь…
10 ноя '16 в 14:13
0 ответов

Как удалить не алфавитно-цифровые символы

У меня есть текстовый столбец, который может содержать странные символы, такие как: "\xe2�\xe2�????????(?(" Я хочу удалить только "\xe2�\xe2�" я пытался str_replace_all("\xe2�\xe2�????????(?(","[:alnum:]", " ")но получаю следующую ошибку: Error: mix…
17 июл '17 в 13:42
2 ответа

Как проводить очистку данных с помощью Spark-Python на основе HDFS

В настоящее время я концентрируюсь на предварительной обработке данных в проекте Data Mining. Если быть точным, я хочу выполнить очистку данных с помощью PySpark на основе HDFS. Я очень новичок в этих вещах, поэтому я хочу спросить, как это сделать?…
1 ответ

na.string в read.csv и функция ifelse в dplyr::mutate

Я использовал 2 способа импортировать данные (в формате CSV) в R. Первый метод не имеет na.string аргумент, а второй имеет. Я использовал второй, потому что некоторые строки выглядели как "" вместо NA после импорта, и что я хочу стандартизировать вс…
19 июл '16 в 07:09
0 ответов

Создание фрейма данных из списка значений с сохранением пробелов

Я пытаюсь создать фрейм данных на основе текстового файла, но это немного сложно, потому что мне нужно сохранить пробелы в определенных областях. Я использую этот общий сценарий для импорта текстового файла построчно, чтобы я мог сохранить интервал …
19 апр '17 в 18:45
2 ответа

Работа с NaN (отсутствующими) значениями для логистической регрессии - лучшие практики?

Я работаю с набором данных о пациентах и ​​пытаюсь рассчитать показатель склонности на основе данных с использованием MATLAB. После удаления объектов со многими пропущенными значениями у меня все еще остается несколько пропущенных (NaN) значений. Я …
1 ответ

R- из столбцов в строки без заголовка

У меня есть 8 переменных на компанию, в общей сложности 25 компаний. Однако мне не нужно проводить различие между этими компаниями. Если вы посмотрите на пример: мне нужно, чтобы AH и JUMBO были в одном столбце, то же самое для AHQ1 и JUMBOQ1 и для …
30 ноя '17 в 12:37
1 ответ

Renamng и удаление конкретных NA в наборе данных в R

Я довольно новичок в этом, и я мог бы использовать некоторую помощь. Мне нравится достигать двух вещей в R. На данный момент у меня есть набор данных, называемый "исследовательские данные". 1. Мне нравится манипулировать данными в одном конкретном с…
01 июл '17 в 12:30
2 ответа

Заменить несколько значений с помощью справочной таблицы

Я очищаю базу данных, одно из полей - "страна", однако названия стран в моей базе данных не соответствуют выводу, который мне нужен. Я хотя и использовал функцию str_replace, но у меня более 50 стран, которые нужно исправить, так что это не самый эф…
28 дек '17 в 06:15
1 ответ

Как разделить или создать новый столбец для списка данных в кадре данных?

Пожалуйста, посмотрите на предварительный просмотр данных в изображении. Я хотел бы создать 3 новых столбца, т.е. Start, End, Density и создать новую строку для каждой записи в этих 3 столбцах.
06 авг '18 в 15:46
1 ответ

Удаление результатов теста Bonferroni Outlier в цикле

Я смоделировал свои данные с помощью линейной регрессии. Я хочу несколько раз запустить тест на выброс Бонферрони и удалить соответствующие записи из моих данных. Моя проблема: я не могу извлечь идентификатор из outlierResult. Вот воспроизводимый ко…
09 мар '16 в 10:06
1 ответ

Как перебрать подмножество столбцов во фрейме данных для создания новых переменных

У меня есть несколько наборов данных, состоящих из ~250 переменных на 350-600 фермерских хозяйств в разных регионах. Данные очень грязные и представляют многочисленные проблемы для анализа. Я новичок в R, поэтому любая помощь по нижеуказанному будет…
01 авг '16 в 04:45
0 ответов

Проблема с получением реактивной переменной в R для возврата фрейма данных

Полное раскрытие, я самоучка в этом деле, так что терпите меня. Моя цель - создать приложение Shiny в R, где пользователь загружает CSV-файл с грязными данными, нажимает кнопку с надписью "clean" и может загрузить теперь чистый файл. Мне бы хотелось…
26 ноя '17 в 04:36