Описание тега exploratory-data-analysis
1
ответ
Боковые боксы для данных с несколькими метками в R?
Я провожу предварительный анализ данных о взаимосвязи между goodreads_score и три логические независимые переменные: fiction, best_seller, а также english. set.seed(1) N <- 100 p <- rep(0.5, N) id <- c(1, N) fiction <- factor(rbinom(leng…
16 май '21 в 13:36
0
ответов
Тестирование метода выборки статистическим
Мисс Рэй хотела бы выяснить, повлияет ли прослушивание музыки на успеваемость учащихся. Он собрал 100 анкет студентов из своих 5 различных курсов математики. Пожалуйста, спланируйте эксперимент, включив в него контрольную группу, метод выборки и т. …
19 май '21 в 00:16
0
ответов
Как пройти Milestone 2? [закрыто]
введите описание изображения здесь MSDS 430 Milestone 1 Выполните следующие действия и отправьте записную книжку и файл HTML в Canvas. Заполненная записная книжка должна включать весь вывод, т.е. запускать каждую ячейку и сохранять файл перед отправ…
24 май '21 в 07:43
0
ответов
Очистите и выполните EDA для данных, используя язык Python
Может кто-нибудь помочь мне с этим вопросом? Мы должны очистить данные, можно удалить, исправить или заменить, а также выполнить EDA с использованием языка Python. https://www.kaggle.com/shashwatwork/dataco-smart-supply-chain-for-big-data-analysis П…
26 май '21 в 07:13
0
ответов
Могу ли я исключить категориальный объект из набора данных, если один из его уровней составляет 80% или более от всех наблюдений для этого объекта?
У меня есть основной вопрос, связанный с подготовкой набора данных перед его тестированием с помощью различных алгоритмов машинного обучения. Я хочу знать, могу ли я исключить категориальный объект из набора данных, если один из его уровней представ…
26 май '21 в 13:00
0
ответов
Применить функцию error pandas. столбец здесь не распознается
Здесь я пытаюсь провести пояснительный анализ данных по титаническому набору данных, но в какой-то момент застрял. Полное описание находится под этими двумя изображениями. Здесь я создал функцию input_age () для обновления нулевых значений в столбце…
30 май '21 в 13:40
1
ответ
Как создать сводку нескольких столбцов из нескольких фреймов данных pandas?
Я пытаюсь проверить любую потерю данных в категориальных столбцах (например, данные для всей категории) после очистки данных. У меня есть 2 серии, которые содержат уникальные значения каждого категориального столбца в кадрах данных. Перед очисткой д…
30 май '21 в 09:08
1
ответ
Ошибка в функции reorder () в R ggplot, объект не найден
Это точная ошибка, которую я получаю - Ошибка при переупорядочении (Страна, Средняя_показатель_клиента, среднее значение): объект «Страна» не найден. Вдобавок: Предупреждающее сообщение: Попытка выполнить расчет с помощью group_by(), но расчет не уд…
01 июн '21 в 00:30
0
ответов
Обнаружение выбросов для дискретных переменных
Нужно ли нам проверять выбросы для дискретных переменных? И какой метод является наилучшим для удаления выбросов? Также мы обрабатываем выбросы в целевой переменной и применяем ли мы различные преобразования к целевым переменным.
02 июн '21 в 07:00
1
ответ
Как визуализировать количество вхождений в фреймворке pandas?
У меня есть Dataframe с 16000 записями и 12 столбцами. Я (надеюсь) уже удалил дубликаты и значения Nan. Я хочу визуализировать количество вхождений в столбце «бренд» на круговой диаграмме с помощью Pandas. Но каждый бренд, который встречается менее …
13 июн '21 в 22:48
1
ответ
Я хочу применить несколько фильтров и соответственно изменить значение столбца в пандах
Предположим, у меня есть такой фрейм данных: Fil1 Fil2 A B C D a crossdev radio com Act 1 23 324 b crossdev webapp radio Act 4 45 343 a Streaming webapp radio Act 3 23 566 a crossdev com Act 1 12 746 Столбец Fil1 в фактическом файле - это действител…
15 июн '21 в 22:06
0
ответов
Ошибка при использовании пакета gganimate в R для рендеринга анимированных графиков
Здравствуйте, пока я пытался анимировать свои графики с помощью пакета gganimate, я обнаружил ошибки, как описано на изображении ниже. Это мой код: ggplot(data,aes(x = Release.Date, fill =Day.of.Week)) + geom_histogram(bins= 30) + transition_time(Ye…
17 июн '21 в 18:55
2
ответа
Как получить данные о лидерах продаж за каждый день за месяц?
У меня есть таблица, которая выглядит как отчет о продажах на каждый день в течение месяца . Здесь я хочу получить 2 лучших издателя за каждый день, у которого самая высокая сумма продаж в этот конкретный день.
19 июн '21 в 08:59
0
ответов
Как я могу извлечь два столбца из набора данных в R? [закрыто]
Предположим, мне нужно извлечь два столбца, а именно пол и сборы, и из них я должен разделить информацию о мужчине и женщине, соответствующую обвинению человека, чтобы выполнить независимый t-тест.
19 июн '21 в 09:07
1
ответ
как извлечь фрейм данных внутри столбца фрейма данных pandas
из фрейма данных pandas (3 * 5), как извлечь столбец (со строками, содержащими объекты фрейма данных в качестве значений (каждый фрейм данных строки 2 * 10)) в отдельный фрейм данных (6 * 10 строк) log_df['df_inside'] = log_df['input'].apply(lambda …
22 июн '21 в 09:42
0
ответов
Понимание словаря: заполнение столбца на основе столбцов с 1 листа и соответствующих значений из другого листа.
Я работаю над некоторыми данными о претензиях, в которых у меня есть такие функции, как (изображение вставлено ниже):введите описание изображения здесь Описания столбцов: (A) год подачи претензии, (B) страховая компания (C) управляемое транспортное …
21 июн '21 в 23:04
0
ответов
Как интерпретировать результат кластеризации
здесь я использую модуль pycaret для создания модели kmean вот фрагмент кода. kmean=create_model('kmeans') kmean_result=assign_model(kmean) kmean_result.head() выход: CustomerID Gender Age Annual Income (k$) Spending Score (1-100) Cluster 0 51 Femal…
25 июн '21 в 08:19
0
ответов
распределение данных необходимо проверить для классификации и анализа тональности
распределение данных необходимо проверить для классификации и анализа настроений? Насколько я понимаю, необходимо проверить распределение данных для регрессионных моделей, но как насчет проблемы классификации, проверить распределение и необходимо но…
29 июн '21 в 21:57
0
ответов
Каковы лучшие практики анализа данных, предоставленных пользователями? [закрыто]
Я собрал данные с помощью веб-опроса об интересах пользователей. Целевая аудитория - инженеры машинного обучения, специалисты по данным, аналитики данных и инженеры искусственного интеллекта. После сбора данных я построил гистограмму, показывающую и…
29 июн '21 в 10:45
1
ответ
Python: как получить имя, показывающее иерархию из данного файла?
Я новичок в Python, и я пытаюсь провести анализ данных с его помощью. У меня есть текстовый файл, который выглядит так: Одним словом, я хочу получить имя, которое показывает иерархию. Например, top1_c_a следует называть как 'top1 / top1_c/top_c_a'. …
01 июл '21 в 12:24