Описание тега data-scrubbing

Процесс обнаружения и исправления (или удаления) поврежденных или неточных записей из набора данных
0 ответов

Оператор равенства Python не распознает значение xlwt.worksheet.cell().

Новичок в питоне. Попытка написать небольшой оператор if для чтения и распознавания ячейки в файле Excel. import xlwt import xlrd style = xlwt.easyxf('font: bold 1') workbook = xlrd.open_workbook('//.../redirection/user/Documents/file.xlsx') workshe…
30 май '18 в 21:46
3 ответа

Что является эквивалентом Python для NA?

Что является эквивалентом Python для NA? Чтобы быть более конкретным: R имеет NaN, NA, NULL, Inf и -Inf. NA обычно используется, когда отсутствуют данные. Что такое эквивалент Python? Как библиотеки, такие как numpy и pandas, обрабатывают пропущенны…
22 фев '15 в 03:53
0 ответов

Динамическая кодовая страница для всех наборов символов?

У меня есть плоский текстовый файл, содержащий миллионы записей. Я пытаюсь импортировать его в SQL Server 2014 с помощью мастера импорта. В соответствии с источником файла он находится в наборе символов UTF-8, поэтому в мастере я выбрал соответствую…
1 ответ

Обновление SQL на Azure ML не работает?

Я пытаюсь очистить некоторые данные в Azure ML. У меня есть блок Apply SQL Transform со следующим кодом: UPDATE t1 SET CreditScore = -1 WHERE CreditScore>900; Это числовой столбец. Когда я визуализирую вывод, есть 0 строк и 0 столбцов. Войдя в бл…
15 авг '16 в 23:54
1 ответ

Javascript вытащить данные с веб-сайта (сайт участника)

Я еще не написал никакого кода для этого, поскольку я пытаюсь выяснить, как это сделать в первую очередь. У меня есть сайт на работе, в который я должен войти с паролем. Это сайт, который мы используем для управления нашими полосами (сейчас я работа…
24 ноя '15 в 22:45
1 ответ

Сгруппируйте повторяющиеся столбцы и суммируйте значения соответствующих столбцов с помощью панд

Я предварительно обрабатываю данные журнала сервера Apache. У меня есть 3 столбца ID, ВРЕМЯ и БАЙТЫ. Пример: ID ВРЕМЯ БАЙТОВ 1 13:00 10 2 13:02 30 3 13:03 40 4 13:02 50 5 13:03 70 Я хочу добиться чего-то вроде этого: ID ВРЕМЯ БАЙТОВ 1 13:00 10 2 13:…
2 ответа

Проекты с открытым исходным кодом для очистки электронной почты, генерирующие структурированные данные из неструктурированного источника?

Не знаю, с чего начать, так что, надеюсь, вы, ребята, сможете прояснить мой вопрос. У меня есть проект, где по электронной почте будут искать конкретные слова / шаблоны и хранить в структурированном виде. Что-то, что сделано с Trip it. В статье гово…
3 ответа

Разбор HTML для определенной части div

Я пытаюсь получить доступ к странице HTML и получить определенное число из div, который генерируется динамически. <span itemprop="average" content="XX"></span> Я хочу получить "XX" как переменную, которая будет отличаться для каждой стра…
12 ноя '13 в 19:11
4 ответа

Как вы чистите список только для соответствующих строк?

Я пытаюсь создать процедуру, которая берет список из textBox, а затем очищает его, используя другой список. Только строки с соответствующим текстом останутся. Я не думаю, что смогу использовать RegEx, потому что я не знаю, из чего будет состоять спи…
18 дек '12 в 10:15
1 ответ

Кассандра 3 Ремонт никогда не заканчивается

У нас есть кластер с 6 узлами в центрах обработки данных (по 3 узла в каждом). Мы начинаем ремонт на одном узле, и вскоре после этого мы можем найти что-то подобное в журналах: ERROR [Repair#1:1] 2016-05-31 01:33:28,075 CassandraDaemon.java:195 - Ex…
03 июн '16 в 07:51
1 ответ

Проверьте на наличие опечаток, сравнивая две строки в T-SQL

Мы разработали серию бизнес-правил, которые определяют дубликат записи контактов, основа этих правил - сначала проверка на одно и то же имя, а затем сравнение других полей, таких как номер телефона, электронная почта, телефон и т. Д. Проблема в том,…
19 фев '13 в 03:34
0 ответов

Альтернативы программам Coding Downloader

На моей работе нам необходимо регулярно получать данные из внешних источников, будь то через ftp, sftp, электронную почту, веб-службы или веб-файлы. Форматы варьируются от скрепления / анализа экрана до CSV, XML, JSON или XLS. Теперь появился новый …
08 апр '14 в 11:50
8 ответов

Удаление символов из строки PHP

Я принимаю строку из ленты для отображения на экране, которая может содержать или не содержать мусор, который я хочу отфильтровать. Я вообще не хочу фильтровать нормальные символы. Значения, которые я хочу удалить, выглядят так: Это только то, что я…
06 окт '09 в 14:16
0 ответов

Изменение значений чисел в CodeMirror с помощью аддона очистки

У меня проблемы с CodeMirror. Я пытаюсь добавить в живую чистку чисел, подобный примеру Бретта Виктора, и возможности Академии Хана, но мне не слишком везет. Я не могу публиковать ссылки, но я нашел эту библиотеку, которая выполняет свою работу (сде…
19 ноя '16 в 05:22
2 ответа

Как очистить данные в Excel, особенно удаляя экстремальные выбросы, которые находятся за пределами заданного диапазона?

У меня есть тысячи ячеек данных, которые выводятся из модели, с моими результатами, отформатированными следующим образом: идентификатор ячейки - это заголовок столбца, каждая строка - это временной шаг, а результаты каждой ячейки за сотни временных …
14 авг '17 в 22:50
2 ответа

Perl "чистит" символы при разборе

Я разбираю файл - первым делом я соединяю первые три поля и добавляю их к каждой записи. Затем я хочу очистить данные любых двоеточий, одинарных кавычек, двойных кавычек или обратной косой черты. Вот как я это делаю, но есть ли способ сделать это с …
28 апр '16 в 13:51
2 ответа

Данные модульного тестирования?

Наше программное обеспечение управляет большим количеством потоков данных из различных источников: реплицированные базы данных в режиме реального времени, файлы, автоматически передаваемые по FTP, запланированный запуск хранимых процедур базы данных…
2 ответа

Shiny App R - Очистка и Ошибка

Я создаю блестящее приложение на R и пытаюсь удалить из Интернета информацию о выбранном пользователем Pokemon, но продолжаю сталкиваться с проблемой "Ошибка: проблема с сертификатом SLL" при попытке использовать read_html() УИ: sidebarPanel( ui &lt…
11 апр '18 в 08:36
2 ответа

Анонимизировать имена в переменной абзаца путем сопоставления и замены

Я анализирую базу данных школьных табелей успеваемости. Мой набор данных состоит из около 3000 записей, структурированных аналогично примеру ниже. Каждое наблюдение - это оценка одного учителя одним учеником. Каждое наблюдение состоит из трех предло…
1 ответ

Удаление данных с интерактивной карты - Cal Fire

http://calfire-forestry.maps.arcgis.com/apps/webappviewer/index.html?id=5306cc8cf38c4252830a38d467d33728&extent;=-13547810.5486%2C4824920.1673%2C-13518764.4778%2C4841526.1117%2C102100 Как я могу очистить места от этого? Не нужны адреса, просто нужн…
15 ноя '18 в 23:28