Описание тега data-cleansing

Описание тега Вопросы с тегом

Процесс обнаружения и исправления (или удаления) поврежденных или неточных записей из набора данных

1 ответ

Должен ли я цикл или создать функцию для этих команд?

Привет, я довольно новичок в очистке данных в R, но очень хорошо знаком с этим в Stata, и я использую RStudio для очистки некоторых данных. Я ищу способ сократить объем кода, который я использую, и я думаю, что способ сделать это будет создать цикл.…

04 янв '15 в 05:11

4 ответа

Лучший способ очистить и нормализовать большой объем данных, используя алгоритм сопоставления строк

В настоящее время я работаю над проектом моделирования данных как часть моего летнего проекта в университете. Данные клиента нуждаются в тщательной очистке, поскольку многие столбцы основаны на вводе человеком и имеют свободный текст. Например, в ст…

algorithm machine-learning string-matching data-cleansing

12 июл '15 в 10:51

1 ответ

Замените повторяющиеся значения из столбца данных, используя нечеткое совпадение

Я пытаюсь использовать библиотеку ('RecordLinkage') и функцию compare.dedup() для замены повторяющихся значений в одном столбце. Как и в этом посте, у меня есть один вектор tv3 = c("TOURDEFRANCE", 'TOURDEFRANCE', "TOURDE FRANCE", "TOURDE FRANZ", "GE…

r fuzzy-search data-cleansing

02 ноя '15 в 22:15

1 ответ

Как обнаружить посторонние точки данных в моей базе данных

В настоящее время у меня есть база данных, в которой есть цены на некоторые товары. Пример данных: Product - Price - SalesDate ProdA - 10 - 1/1/2016 ProdB - 20 - 1/2/2016 ProdA - 100 - 1/3/2016 ProdB - 20 - 1/4/2016 ProdB - 21 - 1/5/2016 ProdA - 11 …

sql machine-learning sql-server-2008-r2 data-cleansing

24 июл '16 в 11:53

2 ответа

Слияние CSV с похожим именем Python

конспект Учитывая каталог, содержащий файлы CSV, названные с шаблоном Prefix-Year.csv, создайте новый набор файлов CSV с именем Prefix-aggregate.csv, где каждый агрегатный файл является комбинацией всех файлов CSV с одинаковым префиксом. объяснение …

python pandas regex csv data-cleansing

20 ноя '15 в 02:02

0 ответов

Проблема с получением реактивной переменной в R для возврата фрейма данных

Полное раскрытие, я самоучка в этом деле, так что терпите меня. Моя цель - создать приложение Shiny в R, где пользователь загружает CSV-файл с грязными данными, нажимает кнопку с надписью "clean" и может загрузить теперь чистый файл. Мне бы хотелось…

r shiny data-cleaning data-cleansing

26 ноя '17 в 04:36

2 ответа

Значение informatica, превышающее указанную точность, разрешенную для этого столбца

Я попытался загрузить таблицу ADuplicate, которая является дубликатом таблицы A, используя прямое сопоставление один в один в Informatica. Но я получил следующую ошибку: "Значение, превышающее указанную точность, разрешенную для этого столбца" Я зам…

informatica data-cleansing

05 янв '12 в 07:10

1 ответ

MySQL: производительность с заявлениями о ситуации и как

Кто-нибудь знает, как подходить к такой ситуации? Получил 10 миллионов записей с названиями компаний и адресами, большинство из которых являются грязными и подлежат очистке. Начал строить функции, используя операторы Case с LIKE & Regex, чтобы найти…

mysql database-performance data-cleansing

20 мар '15 в 02:18

1 ответ

Ищем словарные слова в текстовом файле, используя словарь в python

Я прочитал, как проверить словарные слова, и у меня появилась идея проверить мой текстовый файл, используя словари. Я прочитал инструкцию по использованию penchant и подумал, что если я буду использовать get_tokenizer вернуть мне все слова из словар…

python dictionary data-cleansing pyenchant

13 фев '13 в 18:38

1 ответ

Замена позиции списка оператором if

Можем ли мы выполнить замену в списке Python? У меня есть этот список, который импортируется из CSV-файла: [['1', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', '0', "1", "0", "0", "0", "0", "0", "0", "0", "0", "0", "1", "0", "0 ',' 0 ',' 0 ',' 0…

python list pentaho data-cleaning data-cleansing

28 окт '17 в 22:57

2 ответа

Проблема преобразования из серии в str на Python 2.7.4 Anaconda

import sys sys.version '2.7.8 |Anaconda 2.1.0 (64-разрядная версия)| (по умолчанию, 2 июля 2014 г., 15:12:11) [MSC v.1500 64 бит (AMD64)]' from pandas import DataFrame,Series import datetime id = [199995,199996,199997] hour = [14102101,14102102,1410…

python pandas python-2.7 data-cleansing

30 янв '15 в 21:46

1 ответ

R - Числовое (целое) в преобразование Даты

У меня есть date.frame и столбец с values(20180213190133, 20180213190136, 20180213190173 , 20180213190193 , 20180213190213, 20180213190233, 20180213190333, 20180213190533, 20180213190733, 20180213190833, 20180213190833, 20180213190833, 2018021319018…

r data-cleaning analysis data-cleansing

15 мар '18 в 15:17

0 ответов

"очистка" данных для автоматической вставки SQL через php

Я вставляю данные в таблицу SQL через php, которая извлекается из стороннего источника данных. Иногда этот сторонний источник будет содержать какой-то символ, например, одинарную кавычку, что приведет к сбою моей команды вставки SQL. Мое текущее реш…

php sql validation data-cleansing

09 мар '13 в 02:27

1 ответ

Как определить несколько слов и соответствующих значений из каждой строки в файле ex: "status":"ok"

Я пытаюсь создать сценарий, который, по сути, позволит мне создать список с конкретными элементами из строк, которые могут быть вставлены в базу данных SQL. У меня есть несколько строк, таких как следующие в текстовом файле "address.txt": {"status":…

python json string list data-cleansing

20 фев '14 в 07:30

1 ответ

Создайте переменную фильтра на основе любого NA в диапазоне

Как бы я создал переменную фильтра, если бы отсутствовал какой-либо переменной в диапазоне элементов. Мой вариант использования: Создать новую двоичную переменную (mssiExclude) с помощью if_else() если любое значение в переменной диапазона mssi1_1:m…

r dplyr statistics data-cleaning data-cleansing

16 май '18 в 02:18

2 ответа

Выявление неиспользуемых файлов на веб-сервере

Как я могу определить, какие файлы безопасны для удаления и какие файлы необходимо хранить? После запуска STAT все файлы были доступны со вчерашнего дня, но есть много файлов, которые фактически не использовались годами. Какая методология лучше всег…

linux bash operating-system filesystems data-cleansing

08 июл '14 в 17:20

4 ответа

Многоколоночный факторизация в пандах

Панды factorize Функция присваивает каждому уникальному значению в серии последовательный индекс на основе 0 и вычисляет, к какому индексу принадлежит каждая запись в серии. Я хотел бы сделать эквивалент pandas.factorize на нескольких столбцах: impo…

python pandas enumeration data-cleansing

09 май '13 в 02:39

3 ответа

Инструмент для извлечения структур данных из нечистых данных

У меня есть неструктурированные нечистые данные в поле базы данных. Существуют общие структуры, которые согласуются в данных а именно: field: name:value fieldset: nombre <FieldSet> field, . . . field(n) table nombre <table> head(1)... he…

parsing data-structures data-modeling data-cleansing

28 мар '11 в 21:37

1 ответ

Google уточнит перекрестную ссылку между строкой и столбцом

Я не уверен, что это может быть достигнуто в Google Refine вообще. Но в основном у меня есть такие данные. Первая таблица - это таблица всех пользователей. Второй стол покажи всем друзьям. Однако во второй таблице "friends" Не все идентификаторы сущ…

openrefine data-cleansing

31 янв '13 в 23:16

1 ответ

Выберите категориальные переменные, где количество уровней равно 1

Предварительная обработка в Data Mining иногда требует перегруппировки и перекодирования категориальных переменных. Хорошо известно, что после перекодирования категориальных переменных в R (т.е. функция mapvalues) вам нужно обновить вашу категориаль…

r apply data-cleaning sapply data-cleansing

17 июл '15 в 10:54