Использование LibShortText с файлами в формате LibSVM
Я пытаюсь использовать LibShortText
но я не совсем понимаю, как это работает.
От README
похоже, что это функции для текстовых файлов. Однако мне нужно классифицировать файлы, которые уже находятся в формате LibSVM, поэтому я полагаю, что такие функции, как text-train.py
а также text-predict.py
не будет делать...?
README
также говорится, что:
If a preprocessor directory is given instead, then it is assumed that the
training data is already in LIBSVM format.
Кто-нибудь знает, что такое preprocessor directory
является...?
Из документации LibShortText я вижу, что существует "Модель классификации среднего уровня - учащийся", которая работает с такими файлами, как моя. Однако я не понимаю, как это работает! Например, в нем нет всех параметров, которые есть у LIBSVM... И мне не удалось найти, как сохранить или понять результаты (где вес и прогнозы?).
Если бы кто-то мог объяснить, как это звучит словами, я бы по- настоящему это оценил (я проверял это уже довольно много часов)... Спасибо!
1 ответ
Согласно документам ( http://www.csie.ntu.edu.tw/~cjlin/libshorttext/doc/libshorttext.html), вы можете добавлять файлы.svm, используя опцию -A.
Но если вы уже получили свои данные в формате libsvm, вы можете напрямую использовать liblinear (библиотека, лежащая в основе libshorttext).
Если у вас есть дистрибутив libshorttext, у вас уже есть liblinear. Вы можете скомпилировать и запустить с помощью cd'ing (откуда бы вы ни распаковали libshorttext) примерно так:
$ cd libshorttext/classifier/learner/liblinear
$ make
$ ./train train_file.svm
$ ./predict test_file.svm model_file output_file
Для справки здесь есть liblinear README: https://github.com/ninjin/liblinear/blob/master/README который я нашел очень удобным.