Есть ли извлечение информации, чтобы найти двойники субъекта и глагола / отношения в предложении, такие как ClausIE, Reverb и т. Д.?

Я использовал ClausIE, и он возвращает предмет, глагол и объект тройки из предложения. Но они не будут работать, когда текст является коротким текстом и даже не полным предложением. Я просто хочу библиотеку или иначе, которая может вернуть только пары глаголов субъекта из короткого текста / фразы.

Пример короткого текста: "Предложение 32 принято". Он должен иметь некоторую зависимость или, возможно, правила, используемые для определения того, что термин "предложение" является субъектом, а термин "принятый" - глаголом / отношением.

Я пробовал Stanford Online Parser для вышеупомянутого текста, но он ничего не возвращает, возможно, потому что в тексте нет объекта.

Любой совет будет принят во внимание.

1 ответ

Проблема в том, что вы получили тему ("Предложение 32") и глагол ("принято"). Поскольку у вас нет Объекта, там нет тройки.

Но то, что вы могли бы сделать, это попытаться определить субъект и глагол, используя токенизацию, используя Стэнфорд онлайн

Например:
- Предложение, вероятно, является "декларативным", если Стэнфорд использует тег "S".
- если предложение является декларативным, то:
- Субъектом обычно является группа Существительных, которая находится перед основной группой Глаголов. В Стэнфорде онлайн это первый NP перед первым вице-президентом.

Сейчас: если вы:
- Добавьте "is" перед основным глаголом, который вы получите: "Предложение 32 принято".
- Что означает: "Предложение 32 = принято", что является логическим сравнением, понятным любому языку программирования

Проблема, конечно, в том, что вы не всегда получаете эти простые короткие предложения. Вероятно, есть некоторые пакеты, которые могут иметь дело с этим из коробки. Но не то, что я знаю.

Что вы можете сделать: создать несколько собственных правил, основанных на грамматике английского языка. Он будет понимать только предложения для правил, которые вы делаете. Но, возможно, это все, что вам нужно. Если вам нужно иметь дело только с этими очень короткими комбинациями, несколько хорошо разработанных правил могут сделать эту работу

Другие вопросы по тегам