Извлечение конкретной информации из научных статей
Я ищу конкретную информацию, которую мне нужно извлечь из научных работ. Информация в основном хранится в разделах "Оценка" или "Реализация". Мне нужно извлечь любое содержимое функции, параметр, имя файла, имя приложения, версию приложения в содержании. Существует ли какой-либо метод НЛП / алгоритм машинного обучения для извлечения информации такого типа из научных работ?
1 ответ
Я не знаю ни о каких готовых приложениях, которые выполняют эту конкретную задачу (хотя это не значит, что ее нет, и для этого могут быть коммерческие решения). Но есть варианты с открытым исходным кодом, которые, вероятно, позволят вам делать то, что вы хотите, немного поработав (аннотации и / или написание правил):
- GATE (имеет "удобный" графический интерфейс, поэтому вам не нужно кодировать, если вы не хотите)
- Reverb
- Стэнфордский OpenIE
- Канарейка (ориентирована на клиническую НЛП, но может быть более применимой)
- GROBID (похоже, что он может быть полезен для разделения статей на разделы)
В качестве альтернативы вы можете создать собственное решение поверх библиотек, таких как NLTK или spaCy (если вы пишете код на Python) или Stanford CoreNLP (Java). Похоже, вам нужно будет сначала идентифицировать разделы документа, а затем искать шаблоны в них. Независимо от того, применяете ли вы машинное обучение или подход, основанный на правилах, это, вероятно, потребует значительных усилий. Если у вас есть предопределенный список предметов, которые вы ищете, это сделает вашу жизнь намного проще!