Онлайн (в отличие от массовой обработки) пакеты интеллектуального анализа данных
Под "массовой обработкой" я подразумеваю статический набор фактов данных (как в CSV), которые обрабатываются одновременно для извлечения знаний. В то время как "онлайн", он использует живое резервное хранилище: факты добавляются по мере их появления ("X покупает Y"), и запросы к этим живым данным происходят ("что бы вы порекомендовали человеку, который смотрит на y прямо сейчас?").
Я (неправильно) использовал термин в реальном времени, но я не имею в виду, что результаты должны прийти в течение определенного времени. ('''Изменить: заменить в режиме реального времени на онлайн выше''')
Я имею в виду механизм рекомендаций, который использует живые данные. Однако все онлайн-ресурсы (такие как вопросы SO), с которыми я столкнулся, не делают различий между пакетами интеллектуального анализа данных в реальном времени и массовой обработкой данных. Пришлось искать индивидуально:
- Carrot2, который читает из Lucene/Solr и других живых наборов данных (онлайн)
- Knime, который выполняет запланированное выполнение на статических файлах (навалом)
- Mahout, который работает на Hadoop (и в будущем на основе Pregel Giraph) (онлайн?)
- коммерческий пакет, который интегрируется с Cassandra (онлайн?)
Что такое онлайн-пакеты для сбора данных?
Есть ли причина, по которой в литературе не проводится различий между онлайн-пакетами и пакетами массовой обработки? Или все практическое извлечение данных на самом деле массовая операция в природе?
2 ответа
Для некоторых алгоритмов доступны онлайн-версии. Например, для LOF, локального коэффициента выбросов, существует онлайн-вариант. Я полагаю, что существуют также онлайн-варианты k-средних (и на самом деле оригинальную версию MacQueen можно рассматривать как "онлайн", хотя большинство людей превращают ее в офлайн-версию, повторяя ее до конвергенции), но проблему смотрите ниже. с параметром k.
Тем не менее, работа в Интернете часто сопряжена со значительными затратами на производительность. Вплоть до того момента, когда полный цикл запускается на снимке каждый час быстрее, чем постоянно обновлять результаты. Подумайте об интернет-поисковых системах. Большинство крупных поисковых систем по-прежнему не разрешают "онлайн" запросы, но вместо этого вы запрашиваете последний индекс, который был построен, вероятно, день или более назад.
Кроме того, для работы в режиме онлайн требуется значительное количество дополнительной работы. Матрицу расстояний легко вычислить, гораздо сложнее обновить ее в режиме онлайн, добавив и удалив столбцы, и синхронизировав все зависимые результаты. В целом, большинство результатов анализа данных слишком сложны, чтобы выполнить это. Например, легко вычислить среднее значение потока данных. Но часто "просто не существует известного решения по обновлению результатов без повторного запуска - дорогостоящего - процесса". В других ситуациях вам даже потребуется изменить параметры алгоритма. Так что в какой-то момент может сформироваться новый кластер. Однако k-means не предназначен для появления новых кластеров. По сути, вы не можете просто написать онлайн-версию k-means. Это будет другой алгоритм, так как он должен динамически изменять входной параметр "k".
Так что, как правило, алгоритмы уже будут онлайн или оффлайн. И программный пакет не сможет превратить автономные алгоритмы в онлайн-алгоритмы.
Алгоритмы интеллектуального анализа данных подразумевают, что они вычисляют результаты в реальном времени, и обычно подразумевают, что алгоритмы являются инкрементными. То есть модель обновляется каждый раз, когда она видит новый обучающий экземпляр, и периодическая переподготовка с использованием пакетного алгоритма не требуется. Многие библиотеки машинного обучения, такие как Weka, предоставляют инкрементные версии пакетных алгоритмов. Также проверьте Моа проект и потоковое зажигание. В литературе действительно проводится различие между ними, хотя большинство "традиционных" алгоритмов ML не работают в онлайн-режиме без оптимизации инфраструктуры и вычислений.