Анализ содержания - оценка релевантности заданных терминов

Мы собираемся использовать существующий API службы анализа контента, чтобы вернуть оценку релевантности указанных терминов в статье.

Нашел очень хороший сервис анализа контента, такой как:

  1. Сервис анализа контента Yahoo
  2. OpenCalais...

Однако мы ищем способ вернуть оценку релевантности данных терминов.

например,

у нас есть словарный запас - темы содержит "стоимость", "правительство"

и страницу http://www.test.dev/article/1.html

Затем мы хотим использовать сервис анализа контента, чтобы проверить актуальность тем в статье

так что мы можем решить автоматически пометить статью из нашего собственного словаря.

Спасибо за помощь.

1 ответ

Упомянутая вами служба анализа контента Yahoo будет полезна для определения связанных ссылок и других метаданных. Если вы специально искали словарные термины, вы можете воспользоваться услугой извлечения терминов Yahoo. Он принимает исходный текст и условия запроса.

Вот демонстрационный запрос, как показано в консоли YQL:

select * from search.termextract where context="Italian sculptors and painters of the renaissance favored the Virgin Mary for inspiration" and query="madonna"

И пример результатов:

"results": {
 "Result": [
  "Italian sculptors",
  "the Virgin Mary",
  "painters",
  "the renaissance"
 ]
}

Одно большое предостережение: Yahoo заявила, что служба извлечения терминов будет закрыта в какой-то момент. Вместо этого они рекомендуют новые разработки использовать сервис Content Analysis. ( Источник)

Существуют также таблицы YQL для OpenCalais, если вы хотите, чтобы эта служба работала в том же контексте.

Другие вопросы по тегам