извлечение ключевых слов и классификация текста на основе ключевых слов

В настоящее время я работаю над проектом, который требует извлечения ключевых слов или, можно сказать, классификации текста на основе ключевых слов. Набор данных содержит текст 3 столбца, ключевые слова и условия cc, мне нужно извлечь ключевые слова из текста, а затем классифицировать текст на основе этих ключевых слов, каждая строка в наборе данных имеет свои собственные ключевые слова, я хочу извлечь похожие ключевые слова. Я хочу обучить, предоставив текст и столбец ключевых слов, чтобы модель могла извлекать ключевые слова для неизвестного текста. Пожалуйста, помогите

1 ответ

Извлечение ключевых слов обычно выполняется с использованием показателей TF-IDF, просто устанавливая пороговое значение. При обучении классификатора не имеет особого смысла отсекать ключевые слова на определенном пороге, зная, что что-то не может быть ключевым словом, также может быть ценной информацией для классификатора.

Самый простой способ получить оценки TF-IDF для определенных слов - использовать TfIdfVectorizer в scikit-learn, который выполняет все трудоемкие шаги предварительной обработки текста (токенизация, удаление стоп-слов).

Вероятно, вы сможете добиться лучших результатов, настроив BERT для вашей задачи классификации (но, конечно, за счет гораздо более высоких вычислительных затрат).

Другие вопросы по тегам