Как выполнить скрытый семантический анализ для очень большого набора данных

Я пытаюсь выполнить анализ LSA или компонента компонента на очень большом наборе данных, около 50 000 документов и более 300 000 слов / терминов, чтобы уменьшить размерность, чтобы я мог представить документы в 2-х измерениях.

Я пробовал в Python и в MATLAB, но моей системе не хватает памяти и происходит сбой в любом случае из-за объема набора данных. Кто-нибудь знает, как я могу уменьшить нагрузку, или сделать какой-то примерный LSA/PCA, который может работать быстрее и эффективнее? Моей общей целью является значительное уменьшение размерности за 300 тысяч слов.

1 ответ

Вы могли бы взглянуть на правило Оджи. Он определяет итерационную процедуру для изучения PCA. Теперь вам просто нужно реализовать, что вы не загружаете весь набор данных сразу с диска, чтобы предотвратить перегрузку вашей памяти.

Другие вопросы по тегам