Индекс текста Параметр в концептуальной информации дает только один случай возникновения концепта
У меня есть несколько упоминаний о концепции (например, "золото") в моем документе. Тем не менее, концептуальный поиск концепт-инсайтов вернул бы золото как концепт и только один текстовый индекс для этого концепта (обычно первое вхождение, но не всегда). Есть ли конкретная причина, по которой концептуальный поиск concept insights игнорирует другие упоминания "золота" в документе? Я заинтересован в том, чтобы перетаскивать фрагменты текста вокруг всех вхождений концепции. Было бы здорово, если бы я получил текстовый индекс для всех упоминаний этого понятия. Есть ли способ получить его, кроме сопоставления строк в моем конце.
Заранее спасибо за помощь!
1 ответ
Концептуальный поиск в Concept Insights не игнорирует несколько упоминаний одной и той же (или связанной) концепции в документе. Фактически, служба использует эту информацию для усиления понимания системой концептуальных областей, которые рассматриваются в каждом документе.
Тем не менее, это правда, что в "объяснении" того, почему документ связан с документом, /conceptual_search
конечная точка возвращает выбранный набор понятий. Поскольку система пытается показать разнообразие понятий, которые оправдывают связь между вашим запросом и документом, она может опустить повторяющиеся понятия как часть "объяснения" (вы можете подумать об этом "объяснении", похожем на фрагмент текста, который традиционная поисковая система может предложить пользователю, почему документ может быть релевантным (это не полная история ассоциаций, найденных в документе).
При этом вы можете извлечь все концепции, извлеченные из документа, используя конечную точку /annotations: GET /v2/corpora/{account_id}/{corpus}/documents/{document}/annotations
,
(Документация: https://watson-api-explorer.mybluemix.net/apis/concept-insights-v2)
Для каждой аннотации в документе вы получаете идентификатор концепции вместе с позициями в тексте для вхождения документа. Итак, для вашего примера выше, вы можете:
1) Позвоните /conceptual_search
конечная точка для извлечения документов, относящихся к вашему запросу, вместе с рядом концепций объяснения (концепций, которые связывают документ с вашим запросом); говорят, что вы поняли, что это вопрос Gold
,
2) Позвонить /{document}/annotations
для возвращенного документа, ища дополнительные вхождения "объяснения понятий" (Gold
) в выбранном документе. Вы должны быть в состоянии построить список Gold
вхождения (вместе со списками других объяснительных концепций), которые охватывают весь документ.