Расстояние между значениями двух предложений

Question

Расстояние между значениями двух предложений

Я ищу способ измерить семантическое расстояние между двумя предложениями. Предположим, у нас есть следующие предложения:

(S1) The beautiful cherry blossoms in Japan. 
(S2) The beautiful Japan.

S2 создается из S1 путем исключения слов "вишня", "цветет" и "в". Я хочу определить функцию, которая дает большое расстояние между S1 и S2. Причина этого заключается в том, что они действительно имеют разное значение, так как прекрасное модифицирует цветение вишни, а не Японию.

4

nlp semantics linguistics semantic-analysis

Источник

user3013253 16 апр '14 в 19:02

2 ответа

Другие вопросы по тегам nlp semantics linguistics semantic-analysis

user1011791 16 апр '14 в 20:56 2014-04-16 20:56 · Answer 1 · 2014-04-16 20:56

Как указал Роб, это очень сложная проблема. Это требует, чтобы программа не только понимала лингвистическую семантику, но также имела энциклопедические знания. Например, когда мы говорим "Прекрасная вишня в Японии", мы говорим о прекрасной вишне, которая случается в Японии, или мы говорим об одном коллективном объекте "вишни", который красив и случилось в Японии? Это требует сочетания энциклопедических и языковых знаний.

С чисто энциклопедической точки зрения рассмотрим предложения

Красивые вишни в Японии.
Красивая сакура в Японии.
Красивые цветы в Японии.

Первые два идентичны, а третий тесно связан, но не идентичен. Установление расстояния между предложениями на основе такого рода знаний выходит за рамки простого грамматического анализа и требует использования внешних онтологий (например, sakura = вишневый цвет и этот вишневый цвет IS_A цветок).

Сказав это, можно сделать немного, основываясь на деревьях разбора предложений. Например, если вы посмотрите на деревья разбора избирательных округов двух предложенных вами предложений, вы сможете разбить их на фразы (NP, VP и т. Д.). Для многих примеров достаточно определить расстояние между двумя предложениями как максимальное расстояние между его составляющими фразами, где расстояние между фразами, в свою очередь, может основываться на лексических базах данных, таких как WordNet, или онтологиях, таких как Yago.

Для WordNet легкодоступным пакетом для измерения семантических расстояний является пакет WS4J на основе Ja va. У них также есть онлайн демо. Эти семантические расстояния основаны на расстоянии пути между двумя терминами в графе онтологий (кроме LESK, который просто вычисляет перекрытие терминов в глоссариях словаря).

Это далеко, далеко от полного решения проблемы измерения семантического расстояния, но я надеюсь, что это даст вам отправную точку.

user3013253 25 ноя '18 в 07:15 2018-11-25 07:15 · Answer 2 · 2018-11-25 07:15

Я думаю, что исследования сделали много достижений в этой области, и теперь расстояние между значениями предложений может быть вычислено несколькими способами благодаря разработке векторов слов: