Ключевые фразы к SVM
Новичок в SVM - у меня есть 160 категорий с разными терминами и фразами членства для данных обучения. В некоторых категориях мало фраз, а в других сотни.
У меня есть много текстовых данных тестирования с широким разнообразием тематики. Я думаю, что я хочу MultiClass, oneVsRest SVM, двоичный классификатор.
1) Должен ли обучающий ввод для 1 категории SVM представлять собой набор строк с 1 признаком 3:1 признаком 5:1 ... для положительного членства, где признаком является термин / фраза из списка членства в классе - достаточно ли двоичного значения? и строки -1 признак1:1 признак2:1 признак4:1... для всех членов других классов в словаре known_terms_of_interest?
2) Должны ли входные данные тестовой документации включать только термины, найденные в словаре known_terms_of_interest?
3) линейно ли правильно? - С 1? или потому что в каком-то RBF мало терминов?
Кажется, примеры начинаются с предварительно обработанных файлов, а не с необработанного текста; поэтому я пропускаю этапы установки ключей, так как документация включает описания полей и тому подобное.
1 ответ
1) Должен ли обучающий ввод для 1 категории SVM представлять собой набор строк с 1 признаком 3:1 признаком 5:1 ... для положительного членства, где признаком является термин / фраза из списка членства в классе - достаточно ли двоичного значения? и строки -1 признак1:1 признак2:1 признак4:1... для всех членов других классов в словаре known_terms_of_interest?
Если ваш "featureX" - это натуральное число (индекс вашего слова / фразы), то вы только что описали правильный набор слов. Это самый базовый подход к классификации текста, но он должен работать (в смысле - это правильно)
2) Должны ли входные данные тестовой документации включать только термины, найденные в словаре known_terms_of_interest?
Они должны включать только признаки (как и прежде - в качестве указателей) слов / фраз, замеченных на этапе обучения. libsvm не будет работать, если вы предоставите ему ранее невиданные функции.
3) линейно ли правильно? - С 1? или потому что в каком-то RBF мало терминов?
На этот вопрос нет ответа, и тип ядра, и значение C (а также гамма в случае RBF) должны быть согласованы с использованием некоторой методики обобщающего тестирования (например, перекрестной проверки).