FeatureHashing в R данных для одного столбца?
Привет, у меня есть колонка с 1600 категориями. Я использую приведенную ниже ссылку в качестве ссылки для реализации в R. Где автор объясняет о хешировании функций для diag_1
, diag_2
, diag_3
, Точно так же у меня есть столбец как SC
где у меня 1600 функций. Я хочу реализовать функцию хеширования только для SC column
и остальные данные остаются нетронутыми, а затем я хочу использовать сгенерированные данные для обучения модели машинного обучения.
Но автор реализует весь фрейм данных, который меня запутал. Это необходимо для меня, чтобы реализовать для всего кадра данных? Если нет, то каков альтернативный подход.
Я пытаюсь реализовать только для столбца SC, но формат out отличается от кадра данных, который я не могу объединить обратно с исходными данными
Для воспроизведения проблемы вы можете рассмотреть данные в ссылке ниже
Error: is.data.frame(data) is not TRUE
http://amunategui.github.io/feature-hashing/
Ниже кода ссылка на ссылку выше.
library(FeatureHashing)
objTrain_hashed = hashed.model.matrix(~., data=objTrain[,predictorNames], hash.size=2^12, transpose=FALSE)
objTrain_hashed = as(objTrain_hashed, "dgCMatrix")
objTest_hashed = hashed.model.matrix(~., data=objTest[,predictorNames], hash.size=2^12, transpose=FALSE)
objTest_hashed = as(objTest_hashed, "dgCMatrix")
Я полагаю, что если я передам параметр формулы, приведенный ниже, будут рассмотрены только те три столбца, которые могут мне помочь. ссылка:
https://cran.r-project.org/web/packages/FeatureHashing/FeatureHashing.pdf
library(FeatureHashing)
f <- ~diag_1+diag_2+diag_3
objTrain_hashed = hashed.model.matrix(f, data=objTrain[,predictorNames], hash.size=2^12, transpose=FALSE)
objTrain_hashed = as(objTrain_hashed, "dgCMatrix")