Stanford Named Entity Tagger - Несоответствие?
У меня странная проблема.
У меня есть список предложений (около 0,1 миллиона), которые нужно пометить с помощью тега Стэнфордского именованного распознавания сущности (ner). Я использовал теги, используя следующую строку кода, предоставленную на демонстрационном веб-сайте stanford ner (Java Demo Code).
for (String str : List<sentences>) {
System.out.print(classifier.classifyToString(str, "slashTags", false));
}
Я думал, что все идет хорошо, пока я вручную не проверил некоторые предложения, которые вообще не были помечены и которые должны быть помечены. Но когда эти предложения, которые не помечены, вручную выбраны в некоторый примерный список и протестированы с помощью приведенного выше кода, они затем помечаются. Так что я запутался, где я иду не так. Предложения, которые не помечены правильно, находятся в диапазоне от 1000 до 1500 предложений. поэтому, когда я запустил эти неправильно помеченные предложения в отдельном списке, они помечаются. Влияет ли размер набора данных (0,1 миллиона) на классификатор?
Например: рассмотрим следующее предложение: "Введение в корпорацию IBM". Подобные предложения присутствуют в большом количестве в моем наборе данных на 0,1 миллиона. Поэтому, когда я делаю тегирование с использованием приведенного выше кода в наборе данных 0,1 миллиона, многие из подобных предложений вообще не имеют тегов. Но когда я выбираю их вручную и помещаю в список, а затем делаю пометки, они помечаются.
Я испробовал все подходы, и в результате я получил один и тот же результат, не пометив предложения, как указано выше, при пометке всего набора данных.
Я попробовал следующие 3 различных способа: 1. classifier.classifyToString(inputString, "slashTags", false) 2. classifier.classify(inputString) 3. classifier.classifyToCharacterOffsets(inputString)
Любые идеи или предложения, где я иду не так?
Спасибо
1 ответ
Я думаю, что вы получили ответ по ссылке ниже:
https://mailman.stanford.edu/pipermail/java-nlp-user/2014-July/006045.html