Описание тега categorical-data
Статистический тип данных, значение которого является одной из фиксированного числа номинальных категорий.
1
ответ
Включая категорические особенности наряду с текстом в словесном подходе - Python
Мои данные имеют сочетание текстовых и категориальных особенностей. Это выглядит как: cr_id description business type status 1 More robust system required secured loan system rejected 2 More robust system required secured loan system rejected 3 gran…
05 мар '18 в 06:52
3
ответа
Преобразовать фрейм данных с фиктивными переменными в категориальные переменные
Мне нужно преобразовать пустышку в категориальные переменные. Будучи новичком в R, я просто знаю, как сделать это наоборот. Может ли кто-нибудь указать мне правильное направление? Фрейм данных: data <- data.frame(id=c(1,2,3,4,5,6,7,8,9), red=c("1…
03 сен '18 в 03:26
2
ответа
Реализация Pandas оставить один кодировку для категориальных функций
Недавно я смотрел видео от Оуэна Чжана Каггла, претендента на звание 1: https://youtu.be/LgLcfZjNF44 где он объясняет метод кодирования категориальных функций в числовом, который называется "оставь один кодировку". Что он делает с категориальным при…
24 авг '16 в 16:57
0
ответов
Stata скопировать категориальную переменную
Можно ли скопировать помеченную категориальную переменную в одну строку или мне обычно приходится копировать метки как отдельный шаг? В случае, если я смотрю, egen ... group() подходит близко, но меняет основные целые числа. sysuse auto ** starts th…
23 сен '14 в 15:38
0
ответов
Уменьшить список строковых значений по показателю сходства
Я сталкиваюсь с проблемой машинного обучения; Учебные данные состоят из числовых, категориальных и дат. Я начал тренироваться только на основе чисел и дат (которые я конвертировал в числа, используя эпоху, день недели, часы и т. Д.). Помимо плохой о…
12 сен '18 в 17:38
3
ответа
Создание категориальных переменных из взаимоисключающих фиктивных переменных
Мой вопрос касается разработки ранее отвеченного вопроса о объединении нескольких фиктивных переменных в одну категориальную переменную. В ранее заданном вопросе категориальная переменная была создана из фиктивных переменных, которые НЕ были взаимои…
21 апр '13 в 19:31
2
ответа
Может ли sklearn DecisionTreeClassifier действительно работать с категориальными данными?
Работая с DecisionTreeClassifier, я визуализировал его с помощью graphviz, и, к моему удивлению, кажется, что он принимает категориальные данные и использует их как непрерывные данные. Все мои функции являются категориальными, и, например, вы можете…
18 дек '17 в 17:18
1
ответ
Удалить столбцы с нулевым числом вхождений на уровне фактора
У меня есть столбец тип фактора в моих данных, резюме которого выглядит следующим образом $COL_256 0 1 <NA> 31557 0 0 Как вы можете видеть, в этом столбце только три уровня, и два из них имеют нулевые вхождения, что означает, что это в основно…
13 май '15 в 01:40
1
ответ
R числовые и категориальные переменные в множественной линейной регрессии
У меня есть фрейм данных, который выглядит примерно так: BMI<-c(13.4,14,15.6,16,13.4,12.9,17.7,18.3,17,16.5) sport<-c(1,2,2,3,2,1,1,3,1,2) social<-c("low","middle","middle","low","high","low","middle","middle","high","middle") smoker<-c(…
08 янв '19 в 18:38
1
ответ
R: Расширение R-фактора в фиктивные столбцы для каждого уровня фактора
У меня довольно большой фрейм данных в R с двумя столбцами. Я пытаюсь сделать из Code столбец (factor наберите с 858 уровнями) фиктивные переменные. Проблема в том, что R Studio всегда зависал, когда я пытался это сделать. > str(d) 'data.frame': …
09 мар '14 в 18:46
3
ответа
Заменить пропущенные значения в категориальных данных
Предположим, у меня есть столбец с категориальными данными "красный", "зеленый", "синий" и пустые ячейки. red green red blue NaN Я уверен, что NaN принадлежит к красно-зеленому синему цвету. Должен ли я заменить NaN на среднее значение цветов или эт…
08 сен '17 в 16:16
1
ответ
Предварительная обработка большого файла данных с категориальными и непрерывными функциями
Во-первых, спасибо, что читаете меня, и большое спасибо, если вы можете дать какую-нибудь подсказку, чтобы помочь мне решить эту проблему. Поскольку я новичок в Scikit-learn, не стесняйтесь давать советы, которые помогут мне улучшить процесс и сдела…
14 апр '15 в 06:55
1
ответ
Поиск нескольких критериев в категориальных данных
У меня есть некоторые необработанные данные, подобные показанным ниже, и я хочу найти значение в категории B подкатегории 3. Это что-то вроде сводной таблицы в компактном виде. Я не могу просто использовать функцию MATCH, так как название категории …
02 сен '15 в 09:59
1
ответ
Python pandas string обрабатывает категориальные данные из базы данных SQL
У меня есть большой набор данных, который мне нужно прочитать в кадре данных панд. Он содержит много категориальных данных, состоящих из некоторой довольно длинной строки. Пытаясь использовать метод read_sql_query для панд, я не могу указать, какие …
22 ноя '17 в 09:28
1
ответ
Назначение цветов полигонам для большого числа категорий на карте в R
Я пытаюсь построить карту разных типов растительности, которую я назвал травой. Категории перечислены в траве @data$LEGEND. Всего 72. Мне все равно, какие цвета, но для каждого типа растительности должен быть свой цвет, и некоторые типы растительнос…
06 апр '16 в 12:15
4
ответа
Я хочу преобразовать категориальную переменную в числовую в Python
У меня есть датафрейм с категориальными переменными. Я хочу преобразовать их в числовые, используя следующую логику: У меня есть 2 списка, один из которых содержит различные категориальные значения в столбце, а второй список содержит значения для ка…
24 окт '18 в 19:35
2
ответа
Коды категорий данных в пандах из двух столбцов
У меня есть датафрейм для панд, где две колонки соответствуют именам людей. Столбцы связаны, и одно и то же имя означает одного и того же человека. Я хочу назначить код категории так, чтобы он действовал для всего пространства имен. Например, мой фр…
18 янв '18 в 12:27
3
ответа
R внешнее произведение факторов - пользовательское отображение - слишком медленное
С учетом двух факторов (каждый с одинаковым набором уровней), скажем, lev <- c("alpha", "bravo", "charlie", "echo", "delta", "foxtrot") A <- factor(sample(lev, 6000, TRUE)) B <- factor(sample(lev, 6000, TRUE)) Я хочу взять их внешний продук…
03 июл '14 в 20:55
5
ответов
Как заставить R использовать указанный уровень фактора в качестве эталона в регрессии?
Как я могу сказать R использовать определенный уровень в качестве ссылки, если я использую двоичные объясняющие переменные в регрессии? Он просто использует какой-то уровень по умолчанию. lm(x ~ y + as.factor(b)) с b {0, 1, 2, 3, 4}, Допустим, я хоч…
06 окт '10 в 11:46
1
ответ
Каков наилучший способ суммировать распределение данных на основе категориальной переменной? Я пытаюсь смоделировать звонки в зависимости от дня недели
У меня есть датафрейм, который содержит дату, день недели (по категориям) и количество вызовов (числовые). Я пытаюсь сделать аналитику о том, как распределяется объем звонков по дням недели. Используя пакет решетки, я смог создать гистограмму, но мн…
02 фев '15 в 20:09