Описание тега exploratory-data-analysis

1 ответ

Боковые боксы для данных с несколькими метками в R?

Я провожу предварительный анализ данных о взаимосвязи между goodreads_score и три логические независимые переменные: fiction, best_seller, а также english. set.seed(1) N <- 100 p <- rep(0.5, N) id <- c(1, N) fiction <- factor(rbinom(leng…
16 май '21 в 13:36
0 ответов

Тестирование метода выборки статистическим

Мисс Рэй хотела бы выяснить, повлияет ли прослушивание музыки на успеваемость учащихся. Он собрал 100 анкет студентов из своих 5 различных курсов математики. Пожалуйста, спланируйте эксперимент, включив в него контрольную группу, метод выборки и т. …
0 ответов

Как пройти Milestone 2? [закрыто]

введите описание изображения здесь MSDS 430 Milestone 1 Выполните следующие действия и отправьте записную книжку и файл HTML в Canvas. Заполненная записная книжка должна включать весь вывод, т.е. запускать каждую ячейку и сохранять файл перед отправ…
0 ответов

Очистите и выполните EDA для данных, используя язык Python

Может кто-нибудь помочь мне с этим вопросом? Мы должны очистить данные, можно удалить, исправить или заменить, а также выполнить EDA с использованием языка Python. https://www.kaggle.com/shashwatwork/dataco-smart-supply-chain-for-big-data-analysis П…
0 ответов

Могу ли я исключить категориальный объект из набора данных, если один из его уровней составляет 80% или более от всех наблюдений для этого объекта?

У меня есть основной вопрос, связанный с подготовкой набора данных перед его тестированием с помощью различных алгоритмов машинного обучения. Я хочу знать, могу ли я исключить категориальный объект из набора данных, если один из его уровней представ…
0 ответов

Применить функцию error pandas. столбец здесь не распознается

Здесь я пытаюсь провести пояснительный анализ данных по титаническому набору данных, но в какой-то момент застрял. Полное описание находится под этими двумя изображениями. Здесь я создал функцию input_age () для обновления нулевых значений в столбце…
1 ответ

Как создать сводку нескольких столбцов из нескольких фреймов данных pandas?

Я пытаюсь проверить любую потерю данных в категориальных столбцах (например, данные для всей категории) после очистки данных. У меня есть 2 серии, которые содержат уникальные значения каждого категориального столбца в кадрах данных. Перед очисткой д…
1 ответ

Ошибка в функции reorder () в R ggplot, объект не найден

Это точная ошибка, которую я получаю - Ошибка при переупорядочении (Страна, Средняя_показатель_клиента, среднее значение): объект «Страна» не найден. Вдобавок: Предупреждающее сообщение: Попытка выполнить расчет с помощью group_by(), но расчет не уд…
0 ответов

Обнаружение выбросов для дискретных переменных

Нужно ли нам проверять выбросы для дискретных переменных? И какой метод является наилучшим для удаления выбросов? Также мы обрабатываем выбросы в целевой переменной и применяем ли мы различные преобразования к целевым переменным.
1 ответ

Как визуализировать количество вхождений в фреймворке pandas?

У меня есть Dataframe с 16000 записями и 12 столбцами. Я (надеюсь) уже удалил дубликаты и значения Nan. Я хочу визуализировать количество вхождений в столбце «бренд» на круговой диаграмме с помощью Pandas. Но каждый бренд, который встречается менее …
1 ответ

Я хочу применить несколько фильтров и соответственно изменить значение столбца в пандах

Предположим, у меня есть такой фрейм данных: Fil1 Fil2 A B C D a crossdev radio com Act 1 23 324 b crossdev webapp radio Act 4 45 343 a Streaming webapp radio Act 3 23 566 a crossdev com Act 1 12 746 Столбец Fil1 в фактическом файле - это действител…
0 ответов

Ошибка при использовании пакета gganimate в R для рендеринга анимированных графиков

Здравствуйте, пока я пытался анимировать свои графики с помощью пакета gganimate, я обнаружил ошибки, как описано на изображении ниже. Это мой код: ggplot(data,aes(x = Release.Date, fill =Day.of.Week)) + geom_histogram(bins= 30) + transition_time(Ye…
2 ответа

Как получить данные о лидерах продаж за каждый день за месяц?

У меня есть таблица, которая выглядит как отчет о продажах на каждый день в течение месяца . Здесь я хочу получить 2 лучших издателя за каждый день, у которого самая высокая сумма продаж в этот конкретный день.
0 ответов

Как я могу извлечь два столбца из набора данных в R? [закрыто]

Предположим, мне нужно извлечь два столбца, а именно пол и сборы, и из них я должен разделить информацию о мужчине и женщине, соответствующую обвинению человека, чтобы выполнить независимый t-тест.
19 июн '21 в 09:07
1 ответ

как извлечь фрейм данных внутри столбца фрейма данных pandas

из фрейма данных pandas (3 * 5), как извлечь столбец (со строками, содержащими объекты фрейма данных в качестве значений (каждый фрейм данных строки 2 * 10)) в отдельный фрейм данных (6 * 10 строк) log_df['df_inside'] = log_df['input'].apply(lambda …
0 ответов

Понимание словаря: заполнение столбца на основе столбцов с 1 листа и соответствующих значений из другого листа.

Я работаю над некоторыми данными о претензиях, в которых у меня есть такие функции, как (изображение вставлено ниже):введите описание изображения здесь Описания столбцов: (A) год подачи претензии, (B) страховая компания (C) управляемое транспортное …
0 ответов

Как интерпретировать результат кластеризации

здесь я использую модуль pycaret для создания модели kmean вот фрагмент кода. kmean=create_model('kmeans') kmean_result=assign_model(kmean) kmean_result.head() выход: CustomerID Gender Age Annual Income (k$) Spending Score (1-100) Cluster 0 51 Femal…
0 ответов

распределение данных необходимо проверить для классификации и анализа тональности

распределение данных необходимо проверить для классификации и анализа настроений? Насколько я понимаю, необходимо проверить распределение данных для регрессионных моделей, но как насчет проблемы классификации, проверить распределение и необходимо но…
0 ответов

Каковы лучшие практики анализа данных, предоставленных пользователями? [закрыто]

Я собрал данные с помощью веб-опроса об интересах пользователей. Целевая аудитория - инженеры машинного обучения, специалисты по данным, аналитики данных и инженеры искусственного интеллекта. После сбора данных я построил гистограмму, показывающую и…
1 ответ

Python: как получить имя, показывающее иерархию из данного файла?

Я новичок в Python, и я пытаюсь провести анализ данных с его помощью. У меня есть текстовый файл, который выглядит так: Одним словом, я хочу получить имя, которое показывает иерархию. Например, top1_c_a следует называть как 'top1 / top1_c/top_c_a'. …
01 июл '21 в 12:24