Что означают параметры DBpedia Spotlight?

Я заинтересован в использовании DBpedia Spotlight. Однако нам нужно вставить значение в два параметра достоверности и поддержки. Что на самом деле означают эти два параметра?

Я хочу выделить значимые, заметные n-граммы в тексте. В таком случае, какова обычная рекомендация для параметров доверия и поддержки (практическоеправило)?

1 ответ

Решение

Когда вы просите DBpedia Spotlight аннотировать текст (находя объекты / темы), он ищет n-граммы с URI в DBpedia (n-граммы, которые являются заголовками Википедии). Эти n-граммы называются ресурсами DBpedia.

Поддержка: это параметр Resin Prominence, он помогает игнорировать неважные или неинформативные ресурсы. Когда вы устанавливаете для него значение X, это означает, что ресурсы, количество ссылок на которые из Википедии меньше X, будут игнорироваться и не будут возвращены вам.

Доверие: это параметр достоверности неоднозначности, это порог, который принимает значение от 0 до 1. Когда вы устанавливаете высокое значение, вы получаете более качественные и более надежные аннотации, но рискуете потерять некоторые правильные.

Выбор значений этих (или любых других) параметров зависит от вашего варианта использования.

Примеры:

  • Если у вас есть какой-то набор тестов или золотой стандарт для интересующего вас типа n-грамм, вы можете настроить свой выбор, пока не получите достаточно хорошие результаты, удовлетворяющие вашему золотому стандарту.

  • Если вы хотите получить n-граммы только для того, чтобы вывести тему текста, вы можете настроить параметры, выбирая высокие значения, чтобы получить несколько (в основном) правильных n-граммов и отсортировать их по достоверности.

  • Если вы хотите получить как можно больше n-грамм, и ваша задача не будет затронута или предвзята из-за ошибок, вы можете установить низкие значения.

Другие вопросы по тегам