Использование LibShortText с файлами в формате LibSVM

Я пытаюсь использовать LibShortText но я не совсем понимаю, как это работает.

От READMEпохоже, что это функции для текстовых файлов. Однако мне нужно классифицировать файлы, которые уже находятся в формате LibSVM, поэтому я полагаю, что такие функции, как text-train.py а также text-predict.py не будет делать...?

README также говорится, что:

If a preprocessor directory is given instead, then it is assumed that the 
training data is already in LIBSVM format.

Кто-нибудь знает, что такое preprocessor directory является...?

Из документации LibShortText я вижу, что существует "Модель классификации среднего уровня - учащийся", которая работает с такими файлами, как моя. Однако я не понимаю, как это работает! Например, в нем нет всех параметров, которые есть у LIBSVM... И мне не удалось найти, как сохранить или понять результаты (где вес и прогнозы?).

Если бы кто-то мог объяснить, как это звучит словами, я бы по- настоящему это оценил (я проверял это уже довольно много часов)... Спасибо!

1 ответ

Решение

Согласно документам ( http://www.csie.ntu.edu.tw/~cjlin/libshorttext/doc/libshorttext.html), вы можете добавлять файлы.svm, используя опцию -A.

Но если вы уже получили свои данные в формате libsvm, вы можете напрямую использовать liblinear (библиотека, лежащая в основе libshorttext).

Если у вас есть дистрибутив libshorttext, у вас уже есть liblinear. Вы можете скомпилировать и запустить с помощью cd'ing (откуда бы вы ни распаковали libshorttext) примерно так:

$ cd libshorttext/classifier/learner/liblinear $ make $ ./train train_file.svm $ ./predict test_file.svm model_file output_file

Для справки здесь есть liblinear README: https://github.com/ninjin/liblinear/blob/master/README который я нашел очень удобным.

Другие вопросы по тегам