Описание тега data-analysis

Анализ данных включает извлечение смысла и понимания из необработанных данных. Он включает в себя методы и алгоритмы, которые исследуют, очищают, преобразуют и моделируют данные для получения выводов.
0 ответов

Загрузка данных из Excel или.csv в Python

Я просто хотел кое-что прояснить очень быстро: я искал в интернете десятки подходов о том, как загрузить данные из CSV-файла или Excel-файла в Python, но ни один из них, похоже, не работает для меня, поскольку я обычно получаю сообщение об ошибке, ч…
23 апр '18 в 21:03
0 ответов

Как получить количество ультрафиолетовых (уникальный посетитель) из журнала Apache

Я хочу знать, аналитический алгоритм, как получить УФ-номер из журнала Apache. журнал как это: 218.19.140.242 – - [10/Dec/2010:09:31:17 +0800] “GET /query/trendxml/district/todayreturn/month/2009-12-14/2010-12-09/haizhu_tianhe.xml HTTP/1.1″ 200 1933…
19 мар '12 в 10:01
2 ответа

Ошибка атрибута из объекта Minimizer, возвращенная из функции scipy.optimize.minimize()

Используя функцию scipy.optimize.minimize(), я показал разные результаты, используя разные методы для одной и той же целевой функции. Чтобы оценить пригодность к приему, я использую, чтобы рассматривать уменьшенный ци-квадрат в качестве первого крит…
04 июл '13 в 08:41
1 ответ

Проблемы с MultiIndex импортированного Excel-файла в пандах

Я импортировал лист Excel-файла и проанализировал его в панде DataFrame. path = 'bla.xls' x = pd.ExcelFile(path) sheets = x.sheet_names table = x.parse(sheets[36], header=2) который, кажется, работает, и объект DataFrame имеет ожидаемый индекс Multi…
26 май '14 в 13:40
1 ответ

Как заменить подмножество pandas dataframe на другие серии

Я думаю, что это тривиальный вопрос, но я просто не могу заставить его работать. d = { 'one': pd.Series([1,2,3,4], index=['a', 'b', 'c', 'd']), 'two': pd.Series([np.nan,6,np.nan,8], index=['a', 'b', 'c', 'd']), 'three': pd.Series([10,20,30,np.nan], …
12 фев '17 в 12:41
1 ответ

Каков оптимальный способ для приложения веб-метрик для расчета времени посетителя на сайте?

Я разрабатываю внутреннюю систему веб-анализа, такую ​​как Google Analytics, мне не очень понятна концепция page stay timeТипичное объяснение этой меры из Интернета: доступ пользователя к странице A с отметкой времени: t1 доступ пользователя к стран…
2 ответа

Как привести ось X в порядок (месяц) в R

Я хочу построить график с месяцем, но ось X не в порядке, например, "Apr","Aug","Nov"..... Но я хочу, чтобы порядок на оси X был похож на "Jan", "Фев", "Мар"........ #change the format of date date_month <- format(date_1, "%b") class(date_month) …
09 ноя '18 в 09:32
2 ответа

Как можно вычислить анализ воронки из таблицы исходных событий SQL?

Как можно вычислить анализ воронки из таблицы исходных событий SQL? Например, если воронка - событие1 -> событие2 -> событие3, и это данные: user1, event1, time1 user1, event2, time2 user1, eventOther, time3 user2, event2, time4 user2, event1, time5…
19 окт '14 в 18:28
3 ответа

Отбрасывает столбец, если он превышает определенное количество значений NA

Я хочу написать программу, которая удаляет столбец, если он превышает определенное количество значений NA. Это то, что я сделал. def check(x): for column in df: if df.column.isnull().sum() > 2: df.drop(column,axis=1) нет ошибки при выполнении выш…
1 ответ

Python curve_fit с измеренными точками данных

Я измерил точки данных, я хочу соответствовать формуле для определения двух объектов. Однако я получаю ошибку: TypeError: ufunc 'bitwise_xor' не поддерживается для типов ввода, и входы не могут быть безопасно приведены к любым поддерживаемым типам в…
2 ответа

Показать значение на каждом цвете столбчатой ​​диаграммы с накоплением из другого столбца фрейма данных

Это мой фрейм данных: 6month final-formula Question Text numPatients6month 286231 1 0.031730 CI_FINANCE 977 286270 1 0.147390 CI_MJO 977 286276 1 0.106448 CI_CONCENTRATING 977 286700 2 0.010323 CI_MJO 775 286323 2 0.018065 CI_FINANCE 775 286401 2 0.…
1 ответ

Построение значений матрицы из интервала

У меня есть матрица много-много масштабированных значений. Это матрица (2х500000). Мне нужно построить матрицу, ограниченную [0,5, 0,6] × [0,0, 0,1]. И каждый столбец полученной матрицы интерпретируется как точка в R^2. Не могли бы вы сказать, пожал…
27 май '13 в 17:33
1 ответ

Поиск блоков временных меток с большей скоростью, чем 1 в минуту с пробелами

У меня есть таблица журнала активности, которая отслеживает метку времени действия пользователя. Мне нужно иметь возможность идентифицировать пользователей, которые выполняют больше действий в данный период времени, чем минут за этот период, по край…
24 фев '14 в 16:30
2 ответа

Поиск, если какое-либо слово присутствует в другом столбце кадра данных или в другом кадре данных, используя python

Привет у меня есть два DataFrames, как показано ниже DF1 Alpha | Numeric | Special and | 1 | @ or | 2 | $ | 3 | & | 4 | | 5 | а также DF2 with single column Content | boy or girl | school @ morn| Я хочу найти, есть ли у кого-либо из столбца в DF…
12 июл '17 в 10:23
3 ответа

Интеграция с Python, ROOT и MINUIT?

Я скромный аспирант кафедры физики частиц высоких энергий. Имея необоснованное отвращение к C/C++ и глубокую любовь к Python, я до сих пор прибегаю к Python для анализа данных (просто легкая штука) и собираюсь попытаться поддержать сценарии Python д…
09 фев '09 в 20:02
2 ответа

Как построить гистограмму для сравнения нескольких систем с несколькими переменными, используя Pandas в Python

Я делаю некоторый базовый анализ данных с Pandas, и у меня возникают проблемы с отображением данных. У меня есть данные для нескольких систем, где каждая система имеет ранговые позиции (1-10). В каждой позиции ранга есть оценки A, C и F с процентом.…
2 ответа

Расчет MSS и RSS в R

Я пытаюсь вычислить MSS и RSS, используя выходные данные и компоненты регрессионной модели, которую я создал (model.1) model.1<-glm(wbw.df$x.percap ~ wbw.df$y.percap,family=gaussian) На какой части вывода мне нужно сосредоточиться? Например: Call…
22 мар '18 в 19:40
1 ответ

Python - цикл по определенному столбцу в файле CSV

В настоящее время мой файл CSV отображается на Python: df = pd.read_csv("Desktop\Assignment\World Cup 2018.csv") df.head() Здесь я вижу, что мои данные были открыты, а ненужные столбцы удалены. Теперь я хочу использовать некоторые переменные с имене…
17 дек '18 в 14:53
1 ответ

Как мы можем вернуть несколько участков в R через сантехник?

Вот как выглядит мой код library(plumber) data(mtcars) test=mtcars #' @get /graph #' @png makePlot <- function(){ par(mfrow=c(2,1)) hist(test$mpg) hist(test$wt) } r <- plumb("plum_api.R") r$run(port=8000) Но в выводе я вижу только один график.
0 ответов

Попытка включить pd.date_range в мой анализ Python

Я пытаюсь построить топ-10 типов атаки для каждой группы PERPETRATOR, которая содержит строку "ФБР" между всеми датами, охватывающими 1970 и 1979 годы. Я думаю, что я делаю все правильно, минус часть даты. Кто-нибудь может помочь? Вот мой код: df_1[…
29 янв '19 в 17:24