В одном наборе данных я могу применить PCA отдельно один раз для каждого из двух наборов столбцов из-за ограничений памяти

Question

В одном наборе данных я могу применить PCA отдельно один раз для каждого из двух наборов столбцов из-за ограничений памяти

У меня есть набор данных с двумя наборами столбцов. Один набор имеет категориальные столбцы (о различных характеристиках продукта). Этот набор столбцов будет преобразован в фиктивные переменные (одноразовый кодировщик). и количество результирующих столбцов будет большим. Другой набор, фактически только один столбец, имеет текстовое описание продуктов. Эти текстовые данные будут преобразованы в вектор tf-idf. Теперь из-за ограничений памяти на моем ноутбуке я не могу объединить матрицу фиктивных переменных и матрицу терм-документа и выполнить одну объединенную операцию PCA для всех столбцов, чтобы уменьшить размерность. Но я могу сделать это отдельно для каждой из двух матриц и объединить полученные два набора компонентов PCA. Будут ли серьезные теоретические / практические возражения против такого рода операций?

0

dimensionality-reduction

Источник

user3282777 14 дек '17 в 08:29

0 ответов

Другие вопросы по тегам dimensionality-reduction