Описание тега weka
Weka - это набор алгоритмов машинного обучения для задач интеллектуального анализа данных. Алгоритмы можно либо применять непосредственно к набору данных, либо вызывать из вашего собственного кода Java. Weka содержит инструменты для предварительной обработки данных, классификации, регрессии, кластеризации, правил ассоциации и визуализации. Он также хорошо подходит для разработки новых схем машинного обучения.
Weka - это программное обеспечение с открытым исходным кодом, выпущенное под Стандартной общественной лицензией GNU.
Основным пользовательским интерфейсом Weka является Explorer, но, по сути, к тем же функциям можно получить доступ через компонентный интерфейс потока знаний и из командной строки. Существует также Experimenter, который позволяет систематически сравнивать прогностическую эффективность алгоритмов машинного обучения Weka для набора наборов данных.
В интерфейсе проводника есть несколько панелей, обеспечивающих доступ к основным компонентам рабочей среды:
- На панели "Предварительная обработка" есть средства для импорта данных из базы данных, файла CSV и т. Д., А также для предварительной обработки этих данных с использованием так называемого алгоритма фильтрации. Эти фильтры можно использовать для преобразования данных (например, превращения числовых атрибутов в дискретные) и предоставления возможности удаления экземпляров и атрибутов в соответствии с определенными критериями.
- Панель Classify позволяет пользователю применять алгоритмы классификации и регрессии (без разбора называемые классификаторами в Weka) к результирующему набору данных, чтобы оценить точность полученной прогнозной модели и визуализировать ошибочные прогнозы, кривые ROC и т. Д. Или саму модель. (если модель поддается визуализации, например, в виде дерева решений).
- Панель Associate предоставляет доступ к изучающим правила ассоциации, которые пытаются идентифицировать все важные взаимосвязи между атрибутами в данных.
- Панель Cluster предоставляет доступ к методам кластеризации в Weka, например, к простому алгоритму k-средних. Также существует реализация алгоритма максимизации математического ожидания для обучения смеси нормальных распределений.
- Панель "Выбор атрибутов" предоставляет алгоритмы для определения наиболее предсказуемых атрибутов в наборе данных.
- На панели "Визуализация" отображается матрица точечной диаграммы, в которой отдельные точечные диаграммы можно выбирать и увеличивать, а также анализировать с помощью различных операторов выбора.
Интернет-ресурсы: