Описание тега binning

None Биннинг - это процесс группировки данных в "бункеры", используемый в статистике и анализе данных.
1 ответ

Среднеквадратичное отклонение по результатам GAM с использованием R

Фон База данных PostgreSQL использует PL/R для вызова функций R. Вызов R для вычисления корреляции Спирмена выглядит следующим образом: cor( rank(x), rank(y) ) Также в R наивный расчет подобранной обобщенной аддитивной модели (GAM): data.frame( x, f…
18 июн '10 в 22:08
0 ответов

Объединение данных с помощью DecisionTreeClassifier sklearn?

Предположим, у меня есть набор данных: X y 20 0 22 0 24 1 27 0 30 1 40 1 20 0 ... Я пытаюсь разделить X на несколько бинов, сводя к минимуму энтропию. поэтому я сделал следующее: clf = tree.DecisionTreeClassifier(criterion = 'entropy',max_depth = 4)…
1 ответ

Как динамически связывать данные в Pandas

Есть ли способ, которым я могу динамически связать данные в зависимости от ввода. Здесь я пытаюсь данные бина для увеличения Lng на 0,01. Диапазон данных от 113,88 до 114,3. В настоящее время я вручную делю мусорные ведра. Есть ли более эффективный …
08 янв '18 в 05:47
2 ответа

Объединение нескольких столбцов значений вместе в R

Поэтому я написал скрипт, который позволяет мне складывать значения в одном столбце. Однако проблема, с которой я сталкиваюсь, заключается в том, что мои данные содержатся в нескольких столбцах различной длины и содержат NA. У меня есть сценарий для…
04 мар '15 в 17:31
0 ответов

Данные биннинга с перекрывающимися бинами

Мне нужно данные ветра Идея состоит в том, чтобы изменить размер бункеров ветра, чтобы каждый бин мог покрыть минимальное количество данных. Затем в конце у меня будет 360 перекрывающихся бункеров. Поэтому необходимо определить нижний и верхний пред…
28 янв '17 в 11:07
3 ответа

Как скопировать ряд значений с плавающей точкой в ​​гистограмму в Python?

У меня есть набор значений в float (всегда меньше 0). Который я хочу включить в гистограмму, т.е. каждый столбец гистограммы содержит диапазон значений [0,0.150) Данные, которые у меня есть, выглядят так: 0.000 0.005 0.124 0.000 0.004 0.000 0.111 0.…
12 ноя '09 в 10:21
0 ответов

Есть ли эффективный способ перебазировать большой массив в Python?

Фон: у меня есть большие выборки с гистограммой отсчетов для разных частотных бинов. Частотные интервалы для разных выборок не идентичны, но находятся в аналогичном диапазоне стандартного значения. Вот пример: import numpy as np frequency_standard =…
02 май '18 в 01:06
0 ответов

Я пытаюсь складывать часы в 4 корзины утром, днем, помоги мне

AttributeError Traceback (most recent call last) <ipython-input-23-82d75c0c4598> in <module> 1 for data in train: ----> 2 data.loc[(data['periods']>=time(6)) &(data['periods']<time(12)),'periods']=0 3 data.loc[(data['periods…
26 фев '19 в 14:14
0 ответов

Как правильно разместить столбец в панде

Все, Ниже head моего набора данных. Я бы хотел, чтобы мой столбец ИМТ был таким, чтобы диапазон 19-24 был нормальным,25-29 - "избыточным весом", а 30 и выше помечены как ожирение. {'Age': {0: 33, 2: 38, 3: 39, 4: 33, 5: 38}, 'BMI': {0: 30, 2: 31, 3:…
10 дек '18 в 01:21
2 ответа

Составление списка в Python

Прежде всего, я хотел бы сказать, что я новичок в python, и этот код был создан отдельно от рекомендаций и предложений от пользователей по stackru. Код показан ниже: f = open('E:\Python27\WASP DATA\Sample Data.txt',"r") num=0 line = f.readlines() X …
16 ноя '13 в 10:21
0 ответов

Как рассчитать площадь выкладки в MATLAB

У меня есть матрица размера (Mx3). Столбцы 1 и 2 - это широта и долгота соответственно. Колонка три - это значение температуры. Я хочу сделать объединение данных в области так, чтобы в каждом 100-метровом квадратном контейнере отображалась 1 точка в…
27 авг '14 в 03:59
0 ответов

Создание набора данных с использованием Pandas

Учитывая CSV-файл... neg,,,,,,, SAMPLE 1,,SAMPLE 2,,SAMPLE 3,,SAMPLE 4, 50.0261,2.17E+02,50.0224,3.31E+02,50.0007,5.38E+02,50.0199,2.39E+02 50.1057,2.65E+02,50.0435,3.92E+02,50.0657,5.52E+02,50.0465,3.37E+02 50.1514,2.90E+02,50.0781,3.88E+02,50.1115…
29 апр '16 в 09:34
2 ответа

Среднее значение у в вертикальной ячейке

Итак, у меня есть данные фондового рынка (дата от 0 и далее, и цена закрытия), и с этим я использую numpy.fft для вычисления быстрого преобразования Фурье и соответствующих частот, а затем получаю их в виде сжатого списка, "FFT"., частота. У меня ес…
02 дек '14 в 14:30
2 ответа

R вычисляют среднее значение одного столбца, соответствующего каждому столбцу другого столбца

У меня есть эти данные, которые имеют два столбца. Как видно на графике, в данных слишком много шума. Итак, я хочу дискретизировать столбец "r" размером 5 и назначить каждую строку соответствующему бину, а затем вычислить среднее значение f для кажд…
21 авг '13 в 18:06
1 ответ

Как разделить фрейм данных на ячейки определенной длины с неодинаковым количеством точек?

У меня есть фрейм данных, и я хочу разделить этот фрейм данных на ячейки одинаковой ширины (количество точек данных в каждой ячейке может не совпадать). Я попробовал следующий подход df = pc13.sort_values(by = ['A'], ascending=True) df_temp = np.arr…
23 ноя '18 в 05:19
0 ответов

Как я могу напечатать список выходов из шестнадцатеричной функции redu_C_function?

У меня есть данные в виде гексаграммы, и я использую C=vel, чтобы раскрасить код по скорости. Это прекрасно работает, но я хотел бы получить список рассчитанных стандартных отклонений и список количества объектов в каждой гексаграмме. Я использую: i…
19 сен '13 в 04:57
1 ответ

Как эффективно разместить столб и группу в пандах?

У меня есть следующий фрейм данных: date = ['2015-02-03 23:00:00','2015-02-03 23:30:00','2015-02-04 00:00:00','2015-02-04 00:30:00','2015-02-04 01:00:00','2015-02-04 01:30:00','2015-02-04 02:00:00','2015-02-04 02:30:00','2015-02-04 03:00:00','2015-0…
26 сен '18 в 21:56
1 ответ

Как эффективно сгруппировать значения в перекрывающиеся с помощью панд?

Я хотел бы объединить все значения из столбца типа float в ячейки, которые перекрываются. Результирующий столбец может быть серией одномерных векторов с булевыми значениями - один вектор для каждого значения из исходного столбца. Полученные векторы …
16 май '17 в 15:29
1 ответ

Объединение данных по значениям строк с минимальным размером выборки

Я пытаюсь выяснить, как создать ячейки с минимальным размером выборки, который также учитывает значения в определенном столбце. Итак, в фиктивных данных, приведенных ниже, я хочу создать ячейки с минимальным количеством 6 выборок, но если в корзине …
06 авг '16 в 01:08
2 ответа

Эффективное назначение бина в numpy

У меня очень большой 1D массив Python x несколько повторяющихся чисел и вместе с этим некоторые данные d того же размера. x = np.array([48531, 62312, 23345, 62312, 1567, ..., 23345, 23345]) d = np.array([0 , 1 , 2 , 3 , 4 , ..., 99998, 99999]) в мое…
06 фев '18 в 15:49