Формат файла для классификации с использованием SVM light

Я пытаюсь построить классификатор, используя SVM light, который классифицирует документ в одном из двух классов. Я уже обучил и протестировал классификатор, и файл модели был сохранен на диске. Теперь я хочу использовать этот файл модели для классификации совершенно новых документов. Какой должен быть формат входного файла для этого? Может ли это быть простой текстовый файл (я не думаю, что это будет работать), или это может быть просто простой список объектов, присутствующих в текстовом файле, без какой-либо метки класса и веса объектов (в этом случае я должен отслеживать индексы особенности в векторе признаков во время обучения) или это какой-то другой формат?

2 ответа

Учебные и тестовые файлы должны иметь одинаковый формат, каждый экземпляр приводит к строке следующего вида:

<line> .=. <target> <feature>:<value> ... <feature>:<value> # <info>
<target> .=. +1 | -1 | 0 | <float> 
<feature> .=. <integer> | "qid"
<value> .=. <float>
<info> .=. <string>

Например (скопируйте макароны с сайта SVM^light):

-1 1:0.43 3:0.12 9284:0.2 # abcdef

Вы можете обратиться к веб-сайту SVM^light для получения дополнительной информации.

Формат файла для прогнозирования такой же, как и для теста и обучения, т.е.

<line> .=. <target> <feature>:<value> ... <feature>:<value> # <info>
<target> .=. +1 | -1 | 0 | <float> 
<feature> .=. <integer> | "qid"
<value> .=. <float>
<info> .=. <string>

Но для прогнозирования цель неизвестна, поэтому вы должны использовать значение 0 в качестве цели. Это единственная разница. Я надеюсь, что это помогает кому-то

Другие вопросы по тегам