FeatureHashing в R данных для одного столбца?

Привет, у меня есть колонка с 1600 категориями. Я использую приведенную ниже ссылку в качестве ссылки для реализации в R. Где автор объясняет о хешировании функций для diag_1, diag_2, diag_3, Точно так же у меня есть столбец как SC где у меня 1600 функций. Я хочу реализовать функцию хеширования только для SC column и остальные данные остаются нетронутыми, а затем я хочу использовать сгенерированные данные для обучения модели машинного обучения.

Но автор реализует весь фрейм данных, который меня запутал. Это необходимо для меня, чтобы реализовать для всего кадра данных? Если нет, то каков альтернативный подход.

Я пытаюсь реализовать только для столбца SC, но формат out отличается от кадра данных, который я не могу объединить обратно с исходными данными

Для воспроизведения проблемы вы можете рассмотреть данные в ссылке ниже

Error: is.data.frame(data) is not TRUE

http://amunategui.github.io/feature-hashing/

Ниже кода ссылка на ссылку выше.

library(FeatureHashing)
objTrain_hashed = hashed.model.matrix(~., data=objTrain[,predictorNames], hash.size=2^12, transpose=FALSE)
objTrain_hashed = as(objTrain_hashed, "dgCMatrix")
objTest_hashed = hashed.model.matrix(~., data=objTest[,predictorNames], hash.size=2^12, transpose=FALSE)
objTest_hashed = as(objTest_hashed, "dgCMatrix")

Я полагаю, что если я передам параметр формулы, приведенный ниже, будут рассмотрены только те три столбца, которые могут мне помочь. ссылка:

https://cran.r-project.org/web/packages/FeatureHashing/FeatureHashing.pdf

library(FeatureHashing)
f <- ~diag_1+diag_2+diag_3
    objTrain_hashed = hashed.model.matrix(f, data=objTrain[,predictorNames], hash.size=2^12, transpose=FALSE)
    objTrain_hashed = as(objTrain_hashed, "dgCMatrix")

0 ответов

Другие вопросы по тегам