Анализ содержания - оценка релевантности заданных терминов
Мы собираемся использовать существующий API службы анализа контента, чтобы вернуть оценку релевантности указанных терминов в статье.
Нашел очень хороший сервис анализа контента, такой как:
- Сервис анализа контента Yahoo
- OpenCalais...
Однако мы ищем способ вернуть оценку релевантности данных терминов.
например,
у нас есть словарный запас - темы содержит "стоимость", "правительство"
и страницу http://www.test.dev/article/1.html
Затем мы хотим использовать сервис анализа контента, чтобы проверить актуальность тем в статье
так что мы можем решить автоматически пометить статью из нашего собственного словаря.
Спасибо за помощь.
1 ответ
Упомянутая вами служба анализа контента Yahoo будет полезна для определения связанных ссылок и других метаданных. Если вы специально искали словарные термины, вы можете воспользоваться услугой извлечения терминов Yahoo. Он принимает исходный текст и условия запроса.
Вот демонстрационный запрос, как показано в консоли YQL:
select * from search.termextract where context="Italian sculptors and painters of the renaissance favored the Virgin Mary for inspiration" and query="madonna"
И пример результатов:
"results": {
"Result": [
"Italian sculptors",
"the Virgin Mary",
"painters",
"the renaissance"
]
}
Одно большое предостережение: Yahoo заявила, что служба извлечения терминов будет закрыта в какой-то момент. Вместо этого они рекомендуют новые разработки использовать сервис Content Analysis. ( Источник)
Существуют также таблицы YQL для OpenCalais, если вы хотите, чтобы эта служба работала в том же контексте.