Разреженный анализ главных компонентов с использованием sklearn
Я пытаюсь воспроизвести приложение из этой статьи, где авторы загружают данные 20 групп новостей и используют SPCA для извлечения основных компонентов, которые в некотором смысле лучше всего описывают текстовый корпус [см. Раздел 4.1]. Это для проекта класса больших размеров, где нас попросили выбрать тему и повторить / применить ее.
Выходными данными должны быть K основных компонентов, каждый из которых имеет короткий список слов, которые все интуитивно соответствуют определенной теме (например, в статье обнаруживается, что первый компьютер посвящен политике и религии).
Из моего исследования кажется, что лучший способ воспроизвести приложение из этой статьи - использовать этот алгоритм: sklearn.decomposition.MiniBatchSparsePCA
,
Здесь я нашел только один пример того, как работает этот алогрит.
Поэтому мой вопрос заключается в следующем: возможно ли, в принципе, выполнить шаги в приведенном выше связанном примере, используя текстовые данные для воспроизведения приложения из раздела 4.1 в документе, связанном в первом абзаце?
Если это так, я бы мог задать более конкретный вопрос относительно кода.