Описание тега data-quality
Data quality could refer to conditions of the data and techniques to evaluate or improve such conditions
0
ответов
Извлечение с помощью запроса комментариев из хранимой процедуры
Я пытаюсь документировать нашу базу данных. У нас есть объекты базы данных с большим количеством комментариев, но нет центрального репозитория о том, что было сделано и почему. Я хотел бы написать все комментарии из хранимой процедуры и, возможно, и…
28 июн '18 в 20:28
2
ответа
Как справиться с плохим качеством данных в запросе SQL
Приведенный ниже код представляет собой образец сгруппированных данных, содержащих информацию о температуре (помните, что это температура, измеренная человеком в больнице) из нашей исходной системы. Очевидно, что данные ужасны, но интересно, можно л…
26 май '17 в 11:22
1
ответ
Очевидно, tFuzzyMatch не работает с арабскими текстовыми строками.
Я создал работу в talend open studio для интеграции данных v5.5.1. Я пытаюсь найти совпадения между двумя столбцами имен клиентов, один из которых является поиском, а другой содержит грязные данные. Работа выполняется, как и ожидалось, когда имена к…
26 авг '14 в 07:48
2
ответа
Есть ли разница между терминами "целостность данных" и "качество данных"?
Мне задали этот вопрос сегодня в интервью, и я не знал, как ответить. Кто-нибудь может дать представление о различиях?
19 дек '11 в 13:19
0
ответов
Как получить процент полноты в профилировании данных Talend?
Я только начал с Профилирования данных Talend. Я мог бы получить № пустых строк. Но я хочу процент полноты. Полнота определяется как мера отсутствия пустых (нулевых или пустых строк) значений или наличия непустых значений. Формула: (количество пусты…
09 окт '17 в 03:06
3
ответа
Каковы методы и практики измерения качества данных?
Если у меня есть большой набор данных, которые описывают физические "вещи", как я могу измерить, насколько хорошо эти данные соответствуют "вещам", которые они должны представлять? Например, если у меня есть ящик, содержащий 12 виджетов, и я знаю, ч…
14 май '09 в 19:48
3
ответа
Как использовать чистый SQL для исследовательского анализа данных?
Я разработчик ETL, использующий различные инструменты для задач ETL. Во всех наших проектах возникает один и тот же вопрос: важность профилирования данных до построения хранилища данных и до построения ETL для перемещения данных. Обычно я выполнял п…
11 окт '12 в 08:43
2
ответа
Какое программное обеспечение доступно для проверки качества данных
Я хочу определить некоторые возможные варианты программного обеспечения, которые позволят настраивать пользовательские правила для работы с массивными файлами данных (.csv). Например, правильную прописную букву (позволяющую штатам оставаться заглавн…
22 июн '11 в 19:29
2
ответа
R - оценка недостающих значений
Давайте предположим, что у меня есть таблица как таковая: Date Sales 09/01/2017 9000 09/02/2017 12000 09/03/2017 0 09/04/2017 11000 09/05/2017 14400 09/06/2017 0 09/07/2017 0 09/08/2017 21000 09/09/2017 15000 09/10/2017 23100 09/11/2017 0 09/12/2017…
13 сен '17 в 00:08
4
ответа
Список символов Unicode, которые должны быть отфильтрованы в выводе?
Недавно я столкнулся с ошибкой из-за качества данных с поддержкой браузера, и я ищу безопасное правило для применения экранирования строки без двойного размера, если это не требуется. Последовательность байтов UTF-8 "E2-80-A8" (U+2028, LINE SEPARATO…
11 май '12 в 18:40
1
ответ
Повторения в поле в Firebird без регулярных выражений
Я пытаюсь создать запрос, который отклоняет строку, если какое-то поле содержит все те же символы. То есть. Я хочу выбрать людей по имени Смит, но не людей по имени aaaaaa или bbbb. Я не могу использовать регулярные выражения, как в Firebird SIMILAR…
29 янв '14 в 13:53
0
ответов
Как я могу построить модель логистической регрессии, если мои объяснительные переменные меняются со временем?
Допустим, я пытаюсь предсказать, будет ли аккаунт дефолт в ближайшие 3 месяца, а мои объясняющие переменные - это доход и кредитный рейтинг. Моя целевая переменная фиксирует, действительно ли аккаунт был дефолтным в следующие 3 месяца или нет. Я пыт…
23 янв '18 в 14:41
0
ответов
В хранилище данных Oracle Entreprise Data Quality (EDQ) не найдено таблиц и представлений
Я пытаюсь создать spnashot хранилища данных, к которому я подключен в EDQ. Несмотря на то, что DataStore подключен, и у пользователя есть таблицы в его схеме, ни одна из них не появляется, когда я пытаюсь создать снимок в EDQ. Я попытался использова…
17 янв '19 в 14:58
3
ответа
Существуют ли бесплатные, недорогие или открытые инструменты для сопоставления данных имени / адреса?
Этот вопрос относится к инструментам для сопоставления данных имени / адреса. Существует ряд коммерческих инструментов, предоставляемых SAS, Oracle, Microsoft и т. Д., Которые позволяют дедуплицировать или объединять имена отдельных лиц или компаний…
10 май '10 в 18:46
1
ответ
Informatica Developer(IDQ) статистика
Как мы можем записать в таблицу статистику сопоставления, такую как имя сопоставления, строки источника, строки назначения, время начала, время окончания в инструменте Informatica Developer(IDQ)
08 июн '17 в 21:24
0
ответов
Ошибка установки на сервере качества данных
Я пытаюсь установить установщик сервера качества данных, когда я устанавливаю SQL на выбор функций, я выбираю все функции и устанавливаю сейчас. Я пытаюсь использовать средства данных SSDT SQL Server, сначала я установил, а затем пытаюсь запустить D…
02 авг '17 в 07:35
1
ответ
Ошибка файла входных параметров IDQ в Windows
В процессе IDQ я сгенерировал параметр рабочего процесса в расположении сервера. Когда я пытаюсь вызвать пакетный скрипт, файл параметров с разными именами исходного файла сталкивается с ошибкой, которая показывает, что файл параметров не найден. Не…
06 июл '18 в 23:26
1
ответ
Где находится tMatchGroup в Talend Open Studio для больших данных
Я изучаю качество данных с помощью Talend Open Studio для больших данных версии TOS_DQ-20141207_1530-V5.6.1.zip. В соответствии с моей проблемой, я хочу использовать tMatchGroup, но я понимаю, что он не отображается в палитре Talend Studio. В help.t…
02 май '15 в 17:39
1
ответ
Не получается журнал IDQ во время работы с помощью команды infacmd
Мы запускаем сценарий оболочки, который выполняет развернутое сопоставление IDQ. Я попытался в каталогах Unix, чтобы увидеть, если он создал файл журнала сопоставления, но не где я могу видеть. Я проверил в различных каталогах под "" <infa_home&g…
15 май '15 в 07:32
1
ответ
Работа с неточным (неверным) набором данных
Это мое описание проблемы: "Согласно исследованию доходов и благосостояния домохозяйств, нам необходимо выяснить 10% домохозяйств с наибольшим доходом и расходами. Однако мы знаем, что эти собранные данные ненадежны из-за многих искажений. Несмотря …
23 июн '15 в 07:53