Описание тега data-cleansing

Процесс обнаружения и исправления (или удаления) поврежденных или неточных записей из набора данных
1 ответ

Должен ли я цикл или создать функцию для этих команд?

Привет, я довольно новичок в очистке данных в R, но очень хорошо знаком с этим в Stata, и я использую RStudio для очистки некоторых данных. Я ищу способ сократить объем кода, который я использую, и я думаю, что способ сделать это будет создать цикл.…
04 янв '15 в 05:11
4 ответа

Лучший способ очистить и нормализовать большой объем данных, используя алгоритм сопоставления строк

В настоящее время я работаю над проектом моделирования данных как часть моего летнего проекта в университете. Данные клиента нуждаются в тщательной очистке, поскольку многие столбцы основаны на вводе человеком и имеют свободный текст. Например, в ст…
1 ответ

Замените повторяющиеся значения из столбца данных, используя нечеткое совпадение

Я пытаюсь использовать библиотеку ('RecordLinkage') и функцию compare.dedup() для замены повторяющихся значений в одном столбце. Как и в этом посте, у меня есть один вектор tv3 = c("TOURDEFRANCE", 'TOURDEFRANCE', "TOURDE FRANCE", "TOURDE FRANZ", "GE…
02 ноя '15 в 22:15
1 ответ

Как обнаружить посторонние точки данных в моей базе данных

В настоящее время у меня есть база данных, в которой есть цены на некоторые товары. Пример данных: Product - Price - SalesDate ProdA - 10 - 1/1/2016 ProdB - 20 - 1/2/2016 ProdA - 100 - 1/3/2016 ProdB - 20 - 1/4/2016 ProdB - 21 - 1/5/2016 ProdA - 11 …
2 ответа

Слияние CSV с похожим именем Python

конспект Учитывая каталог, содержащий файлы CSV, названные с шаблоном Prefix-Year.csv, создайте новый набор файлов CSV с именем Prefix-aggregate.csv, где каждый агрегатный файл является комбинацией всех файлов CSV с одинаковым префиксом. объяснение …
20 ноя '15 в 02:02
0 ответов

Проблема с получением реактивной переменной в R для возврата фрейма данных

Полное раскрытие, я самоучка в этом деле, так что терпите меня. Моя цель - создать приложение Shiny в R, где пользователь загружает CSV-файл с грязными данными, нажимает кнопку с надписью "clean" и может загрузить теперь чистый файл. Мне бы хотелось…
26 ноя '17 в 04:36
2 ответа

Значение informatica, превышающее указанную точность, разрешенную для этого столбца

Я попытался загрузить таблицу ADuplicate, которая является дубликатом таблицы A, используя прямое сопоставление один в один в Informatica. Но я получил следующую ошибку: "Значение, превышающее указанную точность, разрешенную для этого столбца" Я зам…
05 янв '12 в 07:10
1 ответ

MySQL: производительность с заявлениями о ситуации и как

Кто-нибудь знает, как подходить к такой ситуации? Получил 10 миллионов записей с названиями компаний и адресами, большинство из которых являются грязными и подлежат очистке. Начал строить функции, используя операторы Case с LIKE & Regex, чтобы найти…
20 мар '15 в 02:18
1 ответ

Ищем словарные слова в текстовом файле, используя словарь в python

Я прочитал, как проверить словарные слова, и у меня появилась идея проверить мой текстовый файл, используя словари. Я прочитал инструкцию по использованию penchant и подумал, что если я буду использовать get_tokenizer вернуть мне все слова из словар…
13 фев '13 в 18:38
1 ответ

Замена позиции списка оператором if

Можем ли мы выполнить замену в списке Python? У меня есть этот список, который импортируется из CSV-файла: [['1', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', "1", "0", "0", "0", "0", "0", "0", "0", "0", "0", "1", "0", "0 ',' 0 ',' 0 ',' 0…
2 ответа

Проблема преобразования из серии в str на Python 2.7.4 Anaconda

import sys sys.version '2.7.8 |Anaconda 2.1.0 (64-разрядная версия)| (по умолчанию, 2 июля 2014 г., 15:12:11) [MSC v.1500 64 бит (AMD64)]' from pandas import DataFrame,Series import datetime id = [199995,199996,199997] hour = [14102101,14102102,1410…
30 янв '15 в 21:46
1 ответ

R - Числовое (целое) в преобразование Даты

У меня есть date.frame и столбец с values(20180213190133, 20180213190136, 20180213190173 , 20180213190193 , 20180213190213, 20180213190233, 20180213190333, 20180213190533, 20180213190733, 20180213190833, 20180213190833, 20180213190833, 2018021319018…
15 мар '18 в 15:17
0 ответов

"очистка" данных для автоматической вставки SQL через php

Я вставляю данные в таблицу SQL через php, которая извлекается из стороннего источника данных. Иногда этот сторонний источник будет содержать какой-то символ, например, одинарную кавычку, что приведет к сбою моей команды вставки SQL. Мое текущее реш…
09 мар '13 в 02:27
1 ответ

Как определить несколько слов и соответствующих значений из каждой строки в файле ex: "status":"ok"

Я пытаюсь создать сценарий, который, по сути, позволит мне создать список с конкретными элементами из строк, которые могут быть вставлены в базу данных SQL. У меня есть несколько строк, таких как следующие в текстовом файле "address.txt": {"status":…
20 фев '14 в 07:30
1 ответ

Создайте переменную фильтра на основе любого NA в диапазоне

Как бы я создал переменную фильтра, если бы отсутствовал какой-либо переменной в диапазоне элементов. Мой вариант использования: Создать новую двоичную переменную (mssiExclude) с помощью if_else() если любое значение в переменной диапазона mssi1_1:m…
16 май '18 в 02:18
2 ответа

Выявление неиспользуемых файлов на веб-сервере

Как я могу определить, какие файлы безопасны для удаления и какие файлы необходимо хранить? После запуска STAT все файлы были доступны со вчерашнего дня, но есть много файлов, которые фактически не использовались годами. Какая методология лучше всег…
4 ответа

Многоколоночный факторизация в пандах

Панды factorize Функция присваивает каждому уникальному значению в серии последовательный индекс на основе 0 и вычисляет, к какому индексу принадлежит каждая запись в серии. Я хотел бы сделать эквивалент pandas.factorize на нескольких столбцах: impo…
09 май '13 в 02:39
3 ответа

Инструмент для извлечения структур данных из нечистых данных

У меня есть неструктурированные нечистые данные в поле базы данных. Существуют общие структуры, которые согласуются в данных а именно: field: name:value fieldset: nombre <FieldSet> field, . . . field(n) table nombre <table> head(1)... he…
1 ответ

Google уточнит перекрестную ссылку между строкой и столбцом

Я не уверен, что это может быть достигнуто в Google Refine вообще. Но в основном у меня есть такие данные. Первая таблица - это таблица всех пользователей. Второй стол покажи всем друзьям. Однако во второй таблице "friends" Не все идентификаторы сущ…
31 янв '13 в 23:16
1 ответ

Выберите категориальные переменные, где количество уровней равно 1

Предварительная обработка в Data Mining иногда требует перегруппировки и перекодирования категориальных переменных. Хорошо известно, что после перекодирования категориальных переменных в R (т.е. функция mapvalues) вам нужно обновить вашу категориаль…
17 июл '15 в 10:54