Извлечение технических ключевых слов из текстового документа

Question

Извлечение технических ключевых слов из текстового документа

Переписан:

У меня есть корпус связанных с информатикой документов. Я хочу извлечь ключевые слова для конкретного домена. например, JAVA, C#, HTML, OOP, UML, Unity и т. д. Я искал источник, похожий на Оксфордский словарь для вычислений, однако их API еще не запущен. Я также пробовал использовать Webopedia для терминов в области информатики, но они не настолько инклюзивны и не обновлены (например, в мои документы не входят некоторые слова, такие как F#) или в случае Википедии все термины не перечислены все вместе. Существует ли более инклюзивный источник или подходящий подход для извлечения этих ключевых слов? Я использую Python с NLTK . Например, tf-idf не помог, потому что некоторые специфичные для домена слова встречаются почти во всех документах, поэтому эти слова не получают высокую оценку. Я думаю, что было бы полезно, если бы я мог использовать POS-теги, но я не уверен, какой вариант будет лучшим для моего приложения. Возьмите строку ниже в качестве примера:

"Возможности экспертного уровня в JavaScript, JSON и AJAX, а также глубокие знания JavaScript-фреймворков, таких как JQuery". Здесь я хочу извлечь следующие слова: ['JavaScript', 'JSON', 'AJAX', 'Frameworks', 'JQuery '] но когда я ищу существительные, используя POS-тегирование NLTK, я получаю "уровень", "способность", "знание"… также. Спасибо за вашу помощь.

3

nltk keyword-search pos-tagging glossary

Источник

user2118596 27 янв '14 в 01:01

1 ответ

Решение

Другие вопросы по тегам nltk keyword-search pos-tagging glossary

user2597135 27 янв '14 в 01:06 2014-01-27 01:06 · Accepted Answer · 2014-01-27 01:06

Почему бы вам не загрузить дампы данных Stackru и не написать программу для фильтрации тегов?

Они только что были выпущены на archive.org, смотрите здесь

Конечно, это не будет включать все термины и будут некоторые ложные срабатывания, но я предполагаю, что это примерно так близко, как вы получите.