Описание тега categorical-data

Статистический тип данных, значение которого является одной из фиксированного числа номинальных категорий.
1 ответ

Включая категорические особенности наряду с текстом в словесном подходе - Python

Мои данные имеют сочетание текстовых и категориальных особенностей. Это выглядит как: cr_id description business type status 1 More robust system required secured loan system rejected 2 More robust system required secured loan system rejected 3 gran…
05 мар '18 в 06:52
3 ответа

Преобразовать фрейм данных с фиктивными переменными в категориальные переменные

Мне нужно преобразовать пустышку в категориальные переменные. Будучи новичком в R, я просто знаю, как сделать это наоборот. Может ли кто-нибудь указать мне правильное направление? Фрейм данных: data <- data.frame(id=c(1,2,3,4,5,6,7,8,9), red=c("1…
03 сен '18 в 03:26
2 ответа

Реализация Pandas оставить один кодировку для категориальных функций

Недавно я смотрел видео от Оуэна Чжана Каггла, претендента на звание 1: https://youtu.be/LgLcfZjNF44 где он объясняет метод кодирования категориальных функций в числовом, который называется "оставь один кодировку". Что он делает с категориальным при…
24 авг '16 в 16:57
0 ответов

Stata скопировать категориальную переменную

Можно ли скопировать помеченную категориальную переменную в одну строку или мне обычно приходится копировать метки как отдельный шаг? В случае, если я смотрю, egen ... group() подходит близко, но меняет основные целые числа. sysuse auto ** starts th…
23 сен '14 в 15:38
0 ответов

Уменьшить список строковых значений по показателю сходства

Я сталкиваюсь с проблемой машинного обучения; Учебные данные состоят из числовых, категориальных и дат. Я начал тренироваться только на основе чисел и дат (которые я конвертировал в числа, используя эпоху, день недели, часы и т. Д.). Помимо плохой о…
3 ответа

Создание категориальных переменных из взаимоисключающих фиктивных переменных

Мой вопрос касается разработки ранее отвеченного вопроса о объединении нескольких фиктивных переменных в одну категориальную переменную. В ранее заданном вопросе категориальная переменная была создана из фиктивных переменных, которые НЕ были взаимои…
21 апр '13 в 19:31
2 ответа

Может ли sklearn DecisionTreeClassifier действительно работать с категориальными данными?

Работая с DecisionTreeClassifier, я визуализировал его с помощью graphviz, и, к моему удивлению, кажется, что он принимает категориальные данные и использует их как непрерывные данные. Все мои функции являются категориальными, и, например, вы можете…
1 ответ

Удалить столбцы с нулевым числом вхождений на уровне фактора

У меня есть столбец тип фактора в моих данных, резюме которого выглядит следующим образом $COL_256 0 1 <NA> 31557 0 0 Как вы можете видеть, в этом столбце только три уровня, и два из них имеют нулевые вхождения, что означает, что это в основно…
13 май '15 в 01:40
1 ответ

R числовые и категориальные переменные в множественной линейной регрессии

У меня есть фрейм данных, который выглядит примерно так: BMI<-c(13.4,14,15.6,16,13.4,12.9,17.7,18.3,17,16.5) sport<-c(1,2,2,3,2,1,1,3,1,2) social<-c("low","middle","middle","low","high","low","middle","middle","high","middle") smoker<-c(…
1 ответ

R: Расширение R-фактора в фиктивные столбцы для каждого уровня фактора

У меня довольно большой фрейм данных в R с двумя столбцами. Я пытаюсь сделать из Code столбец (factor наберите с 858 уровнями) фиктивные переменные. Проблема в том, что R Studio всегда зависал, когда я пытался это сделать. > str(d) 'data.frame': …
3 ответа

Заменить пропущенные значения в категориальных данных

Предположим, у меня есть столбец с категориальными данными "красный", "зеленый", "синий" и пустые ячейки. red green red blue NaN Я уверен, что NaN принадлежит к красно-зеленому синему цвету. Должен ли я заменить NaN на среднее значение цветов или эт…
1 ответ

Предварительная обработка большого файла данных с категориальными и непрерывными функциями

Во-первых, спасибо, что читаете меня, и большое спасибо, если вы можете дать какую-нибудь подсказку, чтобы помочь мне решить эту проблему. Поскольку я новичок в Scikit-learn, не стесняйтесь давать советы, которые помогут мне улучшить процесс и сдела…
1 ответ

Поиск нескольких критериев в категориальных данных

У меня есть некоторые необработанные данные, подобные показанным ниже, и я хочу найти значение в категории B подкатегории 3. Это что-то вроде сводной таблицы в компактном виде. Я не могу просто использовать функцию MATCH, так как название категории …
02 сен '15 в 09:59
1 ответ

Python pandas string обрабатывает категориальные данные из базы данных SQL

У меня есть большой набор данных, который мне нужно прочитать в кадре данных панд. Он содержит много категориальных данных, состоящих из некоторой довольно длинной строки. Пытаясь использовать метод read_sql_query для панд, я не могу указать, какие …
22 ноя '17 в 09:28
1 ответ

Назначение цветов полигонам для большого числа категорий на карте в R

Я пытаюсь построить карту разных типов растительности, которую я назвал травой. Категории перечислены в траве @data$LEGEND. Всего 72. Мне все равно, какие цвета, но для каждого типа растительности должен быть свой цвет, и некоторые типы растительнос…
06 апр '16 в 12:15
4 ответа

Я хочу преобразовать категориальную переменную в числовую в Python

У меня есть датафрейм с категориальными переменными. Я хочу преобразовать их в числовые, используя следующую логику: У меня есть 2 списка, один из которых содержит различные категориальные значения в столбце, а второй список содержит значения для ка…
24 окт '18 в 19:35
2 ответа

Коды категорий данных в пандах из двух столбцов

У меня есть датафрейм для панд, где две колонки соответствуют именам людей. Столбцы связаны, и одно и то же имя означает одного и того же человека. Я хочу назначить код категории так, чтобы он действовал для всего пространства имен. Например, мой фр…
18 янв '18 в 12:27
3 ответа

R внешнее произведение факторов - пользовательское отображение - слишком медленное

С учетом двух факторов (каждый с одинаковым набором уровней), скажем, lev <- c("alpha", "bravo", "charlie", "echo", "delta", "foxtrot") A <- factor(sample(lev, 6000, TRUE)) B <- factor(sample(lev, 6000, TRUE)) Я хочу взять их внешний продук…
03 июл '14 в 20:55
5 ответов

Как заставить R использовать указанный уровень фактора в качестве эталона в регрессии?

Как я могу сказать R использовать определенный уровень в качестве ссылки, если я использую двоичные объясняющие переменные в регрессии? Он просто использует какой-то уровень по умолчанию. lm(x ~ y + as.factor(b)) с b {0, 1, 2, 3, 4}, Допустим, я хоч…
1 ответ

Каков наилучший способ суммировать распределение данных на основе категориальной переменной? Я пытаюсь смоделировать звонки в зависимости от дня недели

У меня есть датафрейм, который содержит дату, день недели (по категориям) и количество вызовов (числовые). Я пытаюсь сделать аналитику о том, как распределяется объем звонков по дням недели. Используя пакет решетки, я смог создать гистограмму, но мн…
02 фев '15 в 20:09