Описание тега one-hot-encoding

One-Hot Encoding - это метод кодирования категориальных переменных в числовые данные, с которыми могут работать алгоритмы машинного обучения.
1 ответ

Закодированный в горячем виде Keras CNN не соответствует ожидаемому

Мне нужно решить простую проблему, в которой есть 32 фильтра того же размера, что и изображение (1x2048). Следовательно, веса фильтра будут умножаться один за другим на пиксели, а не сворачиваться по ним. Выход для каждого изображения представляет с…
0 ответов

Как использовать встраивание в onehot кодировать перед передачей

Я могу обучить свою модель seq2seq, когда в функцию подгонки передается кодированный входной сигнал. Как бы я добился того же, если бы вход не был горячо закодирован? Следующий код работает def seqModel(): latent_dim = 256 # Latent dimensionality of…
13 янв '18 в 17:33
3 ответа

Стандартизация до или после категориального кодирования?

Я работаю над алгоритмом регрессии, в данном случае k-NearestNeighbors, чтобы предсказать определенную цену продукта. Таким образом, у меня есть тренировочный набор, который имеет только одну категориальную особенность с 4 возможными значениями. Я и…
1 ответ

Как предварительно обработать данные класса (с большим количеством уникальных значений) перед подачей их в модель машинного обучения?

Допустим, у меня есть большие данные с игровой онлайн-платформы (например, steam), у которой есть 'date, user_id, number_of_hours_played, no_of_games', и мне нужно написать модель, чтобы предсказать, сколько часов пользователь будет играть в будущем…
2 ответа

Использование "одной горячей" кодированной зависимой переменной в случайном лесу

Я строю случайный лес в python, используя sklearn-learn, и применил "одну горячую" кодировку ко всем категориальным переменным. Вопрос: если я применяю "один горячий" к моему DV, я применяю все его фиктивные столбцы как DV, или DV должен обрабатыват…
0 ответов

Поэлементное умножение с весами питора

Я пытаюсь построить простую "нейронную сеть" с простым поэлементным умножением на весовые коэффициенты. Только для этого сценария у меня есть данные с 5 функциями, из которых только одна - "1", а все остальные - "0" (одна с горячим кодированием), и …
1 ответ

При применении OneHotEncoder - ошибка: не удалось преобразовать Str в число с плавающей точкой: C148

Попытка применить OneHotEncoding к набору данных Titanic. Версия sklearn - 0.19.2. Сначала Labelencoded и теперь при попытке кодирования Onehot выдает ошибку "Не удалось преобразовать str в float: C148" Во-первых, Labelencoded функции "Sex" и "Embar…
18 янв '19 в 15:25
1 ответ

Как интерпретировать результаты Spark OneHotEncoder

Я прочитал запись ОНЕ из документов Spark, Горячее кодирование отображает столбец индексов меток в столбец двоичных векторов, не более одного единственного значения. Это кодирование позволяет алгоритмам, которые ожидают непрерывных функций, таких ка…
17 фев '17 в 10:05
2 ответа

Как использовать вывод OneHotEncoder в sklearn?

У меня есть Pandas Dataframe с 2 категориальными переменными, а также переменная ID и целевая переменная (для классификации). Мне удалось преобразовать категориальные значения с OneHotEncoder, Это приводит к разреженной матрице. ohe = OneHotEncoder(…
1 ответ

Как восстановить кодирование One-Hot в Spark (Scala)

После запуска k-means (mllib spark scala) я хочу разобраться с кластерными центрами, которые я получил из данных, которые я предварительно обработал, используя (среди прочих преобразователей) OneHotEncoder mllib. Центр выглядит так: Центр кластера 0…
1 ответ

Python One-Hot кодировать каждые 2 символа в тексте

У меня есть собственный алфавит, так как словарь состоит из 2 букв, ключей и десятичных значений соответственно. Я в основном хочу кодировать каждые 2 символа в тексте, используя этот алфавит. Текст не может выходить за пределы заданного алфавита, п…
09 июл '18 в 19:51
2 ответа

Python слово в идентификатор представления

Я пытаюсь представить набор слов числами. У меня есть этот код до сих пор: from sklearn.preprocessing import OneHotEncoder import itertools docs = ["select", "max", "income", "from", "data", "where", "revenue", "between", "20", "40"] # split documen…
18 июн '17 в 08:04
2 ответа

Горячее кодирование

У меня есть CSV-файл, как это: text short_text category ... ... ... Я открыл файл и сохранил его во фрейме данных Pandas следующим образом: filepath = 'path/data.csv' train = pd.read_csv(filepath, header=0, delimiter=",") Поля категорий для каждой з…
14 дек '16 в 19:41
1 ответ

Как последовательно горячо кодировать кадры данных с изменяющимися значениями?

Я получаю поток контента в виде фреймов данных, каждый пакет с разными значениями в столбцах. Например, одна партия может выглядеть так: day1_data = {'state': ['MS', 'OK', 'VA', 'NJ', 'NM'], 'city': ['C', 'B', 'G', 'Z', 'F'], 'age': [27, 19, 63, 40,…
30 дек '17 в 12:40
3 ответа

Присоединитесь к одному набору данных и получите результат OneHotEncoder в Pandas

Давайте рассмотрим набор данных о ценах на жилье из этого примера. У меня весь набор данных хранится в housing переменная: housing.shape (20640, 10) Я также сделал кодировку OneHotEncoder одного измерения и получить housing_cat_1hot, так housing_cat…
22 дек '17 в 14:07
1 ответ

Пользовательский кодировщик scikit выдает ошибку преобразования

Я адаптирую некоторый онлайн-код для создания своей собственной версии One Hot Encoder для обучения scikit. Пользовательский класс делает для меня несколько вещей, в основном он позволяет установить порог, ниже которого редкие уровни категориальной …
1 ответ

Панды get_dummies генерирует несколько столбцов для одной и той же функции

Я использую серию панд и пытаюсь преобразовать их в одну горячую кодировку. Я использую describe метод, чтобы проверить, сколько уникальных категорий в серии. Выход: input['pattern'].describe(include='all') count 9725 unique 7 top 1 freq 4580 Name: …
25 дек '17 в 10:03
2 ответа

ValueError: столбцы должны быть такой же длины, как ключ

У меня проблема с запуском кода ниже. данные - мой фрейм данных X - список столбцов для данных поезда. И L - список категорических признаков с числовыми значениями. Я хочу одним горячим закодировать мои категорические особенности. Поэтому я делаю сл…
20 сен '18 в 15:55
2 ответа

Как сделать, чтобы однострочный тензор с каждой строкой в ​​тензоре содержал более одного "1"?

Мне нужно построить однострочный тензор, в котором каждая строка тензора содержит два "1", и у меня есть тензор индекса, но как построить тензор? я знаю это onehot = tf.sparse_to_dense(index, tf.stack([batchsize,10]), 1.0, 0.0)что можно сделать, есл…
1 ответ

Одно горячее кодирование в тензорном потоке для пакетного обучения

Мои данные обучения содержат ~1500 меток (строка, одна метка на запись), и я хочу провести пакетное обучение (просто загрузите одну партию в память, чтобы обновить веса в нейронной сети). Мне было интересно, есть ли класс в tenorflow, чтобы сделать …
30 сен '17 в 16:06