Какое программное обеспечение доступно для проверки качества данных
Я хочу определить некоторые возможные варианты программного обеспечения, которые позволят настраивать пользовательские правила для работы с массивными файлами данных (.csv). Например, правильную прописную букву (позволяющую штатам оставаться заглавными и уникальными фамилиями), идентифицируя количество слов определенных слов в поле и некоторые другие пользовательские правила. Любое руководство будет оценено.
2 ответа
Вы можете использовать Talend Open Studio для этой задачи. Это инструмент с открытым исходным кодом ETL для манипулирования данными и интеграции. Вы можете, например, ImportCSV >> DATABASE >> выполнить преобразования >> ExportCSV. Возможности безграничны.
Вы можете найти его здесь: http://www.talend.com/products-data-integration/talend-open-studio.php
Это также звучит так, как будто вы хотите создать профиль данных. Для этого вы можете использовать Talend Open Profiler, недавно они добавили поддержку плоских файлов, таких как ваш.csv. Он прост в использовании, и вы должны начать работу через 30 минут.
Вы можете найти загрузку здесь: http://www.talend.com/products-data-quality/talend-open-profiler.php
Вы можете найти некоторые учебники здесь:http://www.talendforge.org/tutorials/menu.php
В руководствах выберите вкладку "Качество данных" и прокрутите вниз, пока "Talend Open Profiler"
Это мой первый шаг в оценке качества данных для нового набора данных.
Быстрый Google "утилиты очистки данных" обнаружил это:
http://data-scrubbing.qarchive.org/
Они выглядят очень близко к тому, что вы ищете.
Это будет зависеть от сложности правил. Гораздо сложнее, чем простые вещи, и вы, вероятно, будете впереди, просто зашифровав что-то (или закодировав это).