Особенности с высокой кардинальностью (как их векторизовать?)
Я пытаюсь запустить задачу машинного обучения, используя scikit learn для набора данных, и один из столбцов (функция) имеет высокую мощность около 300 КБ уникальных значений. Как мне векторизовать такую функцию. Использование DictVectorizer не будет решением, так как машине не хватает памяти.
В нескольких постах я читал, что могу просто присвоить номера всем этим строковым значениям, но это приведет к вводящим в заблуждение результатам.
Кто-нибудь имел дело с такого рода набором функций. Если так, как векторизовать его, чтобы я мог передать его для обучения модели?
1 ответ
Пытаться FeatureHasher
, Это
представляет собой альтернативу DictVectorizer и CountVectorizer с низким объемом памяти, предназначенную для крупномасштабного (интерактивного) обучения и ситуаций, когда память ограничена, например, при запуске кода прогнозирования на встроенных устройствах.