Weka (Waikato Environment for Knowledge Analysis) - это библиотека машинного обучения с открытым исходным кодом, написанная на Java.

Weka - это набор алгоритмов машинного обучения для задач интеллектуального анализа данных. Алгоритмы можно либо применять непосредственно к набору данных, либо вызывать из вашего собственного кода Java. Weka содержит инструменты для предварительной обработки данных, классификации, регрессии, кластеризации, правил ассоциации и визуализации. Он также хорошо подходит для разработки новых схем машинного обучения.

Weka - это программное обеспечение с открытым исходным кодом, выпущенное под Стандартной общественной лицензией GNU.

Основным пользовательским интерфейсом Weka является Explorer, но, по сути, к тем же функциям можно получить доступ через компонентный интерфейс потока знаний и из командной строки. Существует также Experimenter, который позволяет систематически сравнивать прогностическую эффективность алгоритмов машинного обучения Weka для набора наборов данных.

В интерфейсе проводника есть несколько панелей, обеспечивающих доступ к основным компонентам рабочей среды:

  • На панели "Предварительная обработка" есть средства для импорта данных из базы данных, файла CSV и т. Д., А также для предварительной обработки этих данных с использованием так называемого алгоритма фильтрации. Эти фильтры можно использовать для преобразования данных (например, превращения числовых атрибутов в дискретные) и предоставления возможности удаления экземпляров и атрибутов в соответствии с определенными критериями.
  • Панель Classify позволяет пользователю применять алгоритмы классификации и регрессии (без разбора называемые классификаторами в Weka) к результирующему набору данных, чтобы оценить точность полученной прогнозной модели и визуализировать ошибочные прогнозы, кривые ROC и т. Д. Или саму модель. (если модель поддается визуализации, например, в виде дерева решений).
  • Панель Associate предоставляет доступ к изучающим правила ассоциации, которые пытаются идентифицировать все важные взаимосвязи между атрибутами в данных.
  • Панель Cluster предоставляет доступ к методам кластеризации в Weka, например, к простому алгоритму k-средних. Также существует реализация алгоритма максимизации математического ожидания для обучения смеси нормальных распределений.
  • Панель "Выбор атрибутов" предоставляет алгоритмы для определения наиболее предсказуемых атрибутов в наборе данных.
  • На панели "Визуализация" отображается матрица точечной диаграммы, в которой отдельные точечные диаграммы можно выбирать и увеличивать, а также анализировать с помощью различных операторов выбора.

Интернет-ресурсы:

Используйте Weka в своем Java-коде

Weka на Sourceforge

Weka на GitHub