НЛП юридических текстов?

У меня есть несколько сотен тысяч юридических документов (в основном из Европейского Союза) - законы, комментарии, судебные документы и т. Д. Я пытаюсь алгоритмически разобраться в них.

Я смоделировал известные отношения (временные, это-изменения-это и т. Д.). Но на уровне одного документа мне бы хотелось иметь лучшие инструменты для быстрого понимания. Я открыт для идей, но вот более конкретный вопрос:

Например: существуют ли методы НЛП для определения релевантных / противоречивых частей документов, а не стандартных образцов? Недавно просочившиеся документы TTIP - это тысячи страниц с таблицами данных, но одно предложение где-то там может разрушить отрасль.

Я поиграл с новым Google Parsey McParfaceи другие решения НЛП в прошлом, но, хотя они работают впечатляюще хорошо, я не уверен, насколько они хороши в выделении смысла.

3 ответа

Чтобы разобраться в документах, вам нужно выполнить какой-то семантический анализ. У вас есть две основные возможности с их примерами:

Использовать семантику фрейма: http://www.cs.cmu.edu/~ark/SEMAFOR/

Используйте маркировку семантической роли (SRL): http://cogcomp.org/page/demo_view/srl

Как только вы сможете извлечь информацию из документов, вы можете применить некоторую последующую обработку, чтобы определить, какая информация является релевантной. Найти, какая информация является релевантной, связано с задачей, и я не думаю, что вы можете найти общий инструмент, который извлекает "соответствующую" информацию.

Я вижу, у вас есть интересный случай использования. Вы также упомянули наличие корпуса (что действительно хороший плюс). Позвольте мне рассказать о решении, которое я набросал для извлечения сути из исследовательских работ.

Чтобы разобраться в документах, вам нужны триггеры, чтобы сообщить (или обучить) компьютеру искать эти "триггеры". Вы можете приблизиться к этому, используя контролируемый алгоритм обучения с простой реализацией задачи классификации текста на самом базовом уровне. Но для этого потребуется предварительная работа, помощь экспертов по предметным областям для определения "триггеров" из текстовых данных. Существуют инструменты для извлечения сущности предложений - например, взять в предложении существительные фразы, назначить веса на основе совпадений и представить их как векторы. Это ваши тренировочные данные. Это может быть действительно хорошим началом для включения НЛП в ваш домен.

Не используйте триггеры. Что вам нужно, так это двусмысленность слов и адаптация предметной области. Вы хотите, чтобы понять это в документах, т.е. понять семантику, чтобы выяснить смысл. Вы можете создать легальную онтологию терминов в формате skos или json-ld, представить его онтологически в графе знаний и использовать его с разбором зависимостей, например tenorflow / parseymcparseface. Или вы можете передавать свои документы с использованием архитектуры на основе каппы - что-то вроде kafka-flink-asticsearch с добавлением промежуточных слоев NLP с использованием CoreNLP/Tensorflow/UIMA, кэшировать настройки индексации между flink и asticsearch с помощью redis для ускорения процесса. Чтобы понять релевантность, вы можете применить конкретные случаи повышения в вашем поиске. Кроме того, применяйте анализ чувств, чтобы выработать намерения и правдивость. Ваш вариант использования - это одно из извлечения информации, суммирования и семантической сети / связанных данных. Поскольку в ЕС существует другая правовая система, вам необходимо сначала обобщить, что на самом деле является юридическим документом, а затем сузить его до конкретных правовых концепций, связанных с темой или регионом. Вы также можете использовать здесь методы моделирования тем из LDA или Word2Vec/Sense2Vec. Кроме того, Lemon также может помочь от преобразования лексического в семантику и семантику в лексическое, то есть NLP-> онтология -> онтология->NLP. По сути, укажите кластеризацию в вашей классификации распознавания именованных объектов. Вы также можете использовать кластеризацию, чтобы помочь вам построить онтологию или увидеть, какие векторы слов присутствуют в документе или наборе документов, используя косинусное сходство. Но для того, чтобы сделать все это, лучше всего визуализировать слово разреженность ваших документов. Что-то вроде здравого смысла + глубокое обучение может помочь и в вашем случае.

Другие вопросы по тегам