Приобретение базовых навыков работы с визуализацией / анализом больших наборов данных

Я ищу способ научиться чувствовать себя комфортно с большими наборами данных. Я студент университета, поэтому все, что я делаю, имеет "хороший" размер и сложность. В этом семестре я работал над исследовательским проектом с профессором, и мне пришлось визуализировать взаимосвязи между довольно большим (по моему опыту) набором данных. Это был файл CSV 15 МБ.

Я написал большую часть своих данных в Python, визуализированных с помощью GNUPlot.

Есть ли какие-либо доступные книги или веб-сайты на эту тему? Бонусные баллы за использование Python, больше бонусных баллов за более "базовую" систему визуализации, чем полагаясь на gnuplot. Каир или что-то, я полагаю.

В поисках чего-то, что приведет меня от интеллектуального анализа данных к обработке и визуализации.

РЕДАКТИРОВАТЬ: я больше ищу то, что научит меня "большие идеи". Я могу написать код сам, но ищу методы, которые люди используют для работы с большими наборами данных. Я имею в виду, что мои 15 МБ достаточно малы, чтобы я мог положить в память все, что мне когда-либо понадобится, и просто начать работать. Что люди делают для визуализации наборов данных 5 ГБ?

4 ответа

Решение

Я бы сказал, что самый базовый навык - это хорошее знание математики и статистики. Это может помочь вам оценить и выбрать из множества методов фильтрации данных, уменьшения их объема и размерности при сохранении их целостности. Последнее, что вы хотели бы сделать, это сделать что-то красивое, что показывает шаблоны или отношения, которых на самом деле нет.

Специализированная математика

Чтобы решить некоторые типы проблем, вам нужно изучить математику, чтобы понять, как работают конкретные алгоритмы и как они будут влиять на ваши данные. Существуют различные алгоритмы для кластеризации данных, уменьшения размерности, обработки на естественном языке и т. Д. Многие из них могут никогда не использоваться, в зависимости от типа данных, которые вы хотите проанализировать, но в Интернете имеется множество ресурсов (и сайтов Stack Exchange). если вам нужна помощь

Witten's Data Mining хорош для ознакомительного обзора методов интеллектуального анализа данных. У меня есть 1-е издание, и оно объясняет понятия простым языком с добавлением математики. Я рекомендую его, потому что он дает хороший обзор и не слишком дорогой - по мере того, как вы будете читать больше в этой области, вы заметите многие из книги довольно дорогие. Единственным недостатком является количество страниц, посвященных использованию WEKA, пакета интеллектуального анализа данных Java, который может быть не слишком полезным, если вы используете Python (но с открытым исходным кодом, так что вы можете почерпнуть некоторые идеи из исходного кода. Я также обнаружил, что Введение в машинное обучение дает хороший обзор, также по разумной цене, с немного большей математикой.

инструменты

Я думаю, что для создания визуализаций вашего собственного изобретения на одной машине вы должны начать с основ: Python, Numpy, Scipy, Matplotlib и хорошей графической библиотеки, с которой у вас есть опыт, например, PIL или Pycairo. С их помощью вы можете сокращать числа, наносить их на графики и делать красивые вещи с помощью пользовательских процедур рисования.

Когда вы хотите создавать движущиеся, интерактивные визуализации, инструменты, такие как библиотека обработки на основе Java, делают это легко. Есть даже способы написания Обработка эскизов в Python через Jython, если вы не хотите писать Java.

Существует множество других инструментов, если они вам понадобятся, таких как OpenCV (компьютерное зрение, машинное обучение), Orange (анализ данных, анализ, а именно) и NLTK (естественный язык, анализ текста).

Принципы и техника презентации

Книги таких людей, как Эдвард Туфте, и справочники, такие как Information Graphics, могут помочь вам получить хороший обзор способов создания визуализаций и их эффективного представления.

Ресурсы, чтобы найти примеры Viz

На таких веб-сайтах, как " Потоки данных", " Инфостетика", " Сложность визуального представления" и " Прекрасная информация", представлены свежие интересные новинки из Интернета. Вы также можете просмотреть множество скомпилированных списков сайтов визуализации в Интернете. Начните с них как с начала и начните навигацию, я уверен, вы найдете много полезных сайтов и вдохновляющих примеров.

(Первоначально это был комментарий, но он слишком длинный)

Проверьте информацию красиво. Это не техническая книга, но она может дать вам пару идей для визуализации данных.

И, может быть, взгляните на первые 3 главы Принципов интеллектуального анализа данных, в нем рассматриваются некоторые концепции визуализации данных в контексте интеллектуального анализа данных, и некоторые из них были полезны во время обучения в университете.

Надеюсь это поможет

Если вы ищете визуализацию, а не анализ и анализ данных, "Визуальное отображение количественной информации " Эдварда Туфте считается одной из лучших книг в этой области.

Мне нравится книга " Анализ данных с помощью инструментов с открытым исходным кодом" от Janert. Это довольно широкий обзор методов анализа данных, сосредоточенный на том, как понять систему, которая производила данные, а не на сложных статистических методах. Одно предостережение: хотя используемая математика не является особенно продвинутой, я думаю, что вам нужно быть уверенным в математических аргументах, чтобы извлечь большую пользу из книги.

Другие вопросы по тегам