Как использовать чистый SQL для исследовательского анализа данных?
Я разработчик ETL, использующий различные инструменты для задач ETL. Во всех наших проектах возникает один и тот же вопрос: важность профилирования данных до построения хранилища данных и до построения ETL для перемещения данных. Обычно я выполнял профилирование данных (т. Е. Обнаружение неверных данных, аномалий данных, количества, различных значений и т. Д.) С использованием чистого SQL, поскольку инструменты ETL не обеспечивают для них хорошей альтернативы (в наших инструментах есть некоторые компоненты качества данных, но они не так сложно). Одним из вариантов является использование языка программирования R или SPSS Modeler и т. Д. Инструментов для этого вида исследовательского анализа данных. Но обычно такого рода инструменты недоступны или не подходят, если есть миллионы строк данных.
Как сделать этот вид профилирования с использованием SQL? Есть ли какие-нибудь вспомогательные скрипты? Как вы выполняете этот вид исследовательского анализа данных перед очисткой данных и ETL?
3 ответа
Я нашел хороший инструмент для этой цели: http://datacleaner.org/. Это, кажется, делает большинство вещей, которые я хочу сделать с данными в процессе EDA.
Загрузите данные в некоторую промежуточную систему и используйте задачу "Профилировщик данных" из служб SSIS. Используйте эту ссылку http://gowdhamand.wordpress.com/2012/07/27/data-profiling-task-in-ssis/ чтобы проверить, как анализировать данные. Надеюсь это поможет.
Используйте этот исследовательский анализ данных для SQL, который может помочь в профилировании и анализе данных.
https://pypi.org/project/edaSQL/
исходный код: https://github.com/selva221724/edaSQL