Как использовать чистый SQL для исследовательского анализа данных?

Question

Как использовать чистый SQL для исследовательского анализа данных?

Я разработчик ETL, использующий различные инструменты для задач ETL. Во всех наших проектах возникает один и тот же вопрос: важность профилирования данных до построения хранилища данных и до построения ETL для перемещения данных. Обычно я выполнял профилирование данных (т. Е. Обнаружение неверных данных, аномалий данных, количества, различных значений и т. Д.) С использованием чистого SQL, поскольку инструменты ETL не обеспечивают для них хорошей альтернативы (в наших инструментах есть некоторые компоненты качества данных, но они не так сложно). Одним из вариантов является использование языка программирования R или SPSS Modeler и т. Д. Инструментов для этого вида исследовательского анализа данных. Но обычно такого рода инструменты недоступны или не подходят, если есть миллионы строк данных.

Как сделать этот вид профилирования с использованием SQL? Есть ли какие-нибудь вспомогательные скрипты? Как вы выполняете этот вид исследовательского анализа данных перед очисткой данных и ETL?

2

sql ssis etl data-mining data-quality

Источник

user179748 11 окт '12 в 08:43

3 ответа

Решение

Загрузите данные в некоторую промежуточную систему и используйте задачу "Профилировщик данных" из служб SSIS. Используйте эту ссылку http://gowdhamand.wordpress.com/2012/07/27/data-profiling-task-in-ssis/ чтобы проверить, как анализировать данные. Надеюсь это поможет.

2

Источник

user1176133 11 окт '12 в 10:14

Используйте этот исследовательский анализ данных для SQL, который может помочь в профилировании и анализе данных.

https://pypi.org/project/edaSQL/

исходный код: https://github.com/selva221724/edaSQL

1

Источник

user10383650 07 ноя '21 в 07:50

Другие вопросы по тегам sql ssis etl data-mining data-quality

user179748 08 май '14 в 13:46 2014-05-08 13:46 · Accepted Answer · 2014-05-08 13:46

Я нашел хороший инструмент для этой цели: http://datacleaner.org/. Это, кажется, делает большинство вещей, которые я хочу сделать с данными в процессе EDA.

0

Источник

user179748 08 май '14 в 13:46