Описание тега sklearn-pandas
Модуль Python, обеспечивающий мост между методами машинного обучения Scikit-Learn и DataFrames в стиле панд.
2
ответа
Как найти и добавить столбец частоты для идентификатора?
Я новичок в питоне, так что терпите меня! Мой набор данных от Excel, и мне было интересно, как найти и добавить столбец частоты для моего идентификатора. Сначала я выполнил функцию группировки для идентификатора и даты, выполнив: dfcount = dfxyz.gro…
19 апр '18 в 22:54
1
ответ
Работа с sklearn Boston Housing Dataset: Попытка создать фрейм данных для коэффициентов
Я запустил следующие строки кода import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline from sklearn.datasets import load_boston boston = load_boston() print(boston.data.shape) from sklearn.li…
09 авг '18 в 03:42
2
ответа
python TfidfVectorizer выдает typeError: ожидаемую строку или байтовоподобный объект в CSV-файле
Я анализирую очень большой CSV-файл и пытаюсь извлечь из него информацию tf-idf с помощью scikit. К сожалению, я никогда не заканчиваю обработку данных, так как он выдает эту ошибку типа. Есть ли способ программно изменить файл CSV, чтобы устранить …
12 май '17 в 20:48
1
ответ
Случайное лесное обращение с отрицанием
Я использую Случайный Лес, чтобы применить чувство к строке. Так что в основном после очистки отзывы, что по сути означает, что стоп-слова (nltk.corpus -> stopwords откуда я удаляю слова как нет, не, ни, выиграл, разве, когда-то) удаляются, а так…
05 авг '16 в 00:13
3
ответа
Стандартизация до или после категориального кодирования?
Я работаю над алгоритмом регрессии, в данном случае k-NearestNeighbors, чтобы предсказать определенную цену продукта. Таким образом, у меня есть тренировочный набор, который имеет только одну категориальную особенность с 4 возможными значениями. Я и…
13 ноя '17 в 19:27
1
ответ
Как получить топ N часто встречающихся слов в каждом кластере? Sklearn
У меня есть текстовый корпус, который содержит более 1000 статей в каждой отдельной строке. Я использовал Hierarchy Clustering с использованием Sklearn в python для создания кластеров связанных статей. Это код, который я использовал для кластеризаци…
01 май '17 в 15:03
1
ответ
Невозможно преобразовать данные из файла CSV в sklearn
Я пытаюсь выучить некоторую классификацию в Scikit-learn. Однако я не мог понять, что означает эта ошибка. import pandas as pd from sklearn.feature_extraction.text import CountVectorizer data_frame = pd.read_csv('data.csv', header=0) data_in_numpy =…
09 дек '16 в 17:27
1
ответ
Как двоично кодировать два смешанных объекта?
У меня есть набор данных, похожий на этот: import pandas as pd pd.DataFrame({"A": [2, 2, 1, 0, 5, 3, 0, 4, 5], "B": [1, 0, 0, 0, 1, 1, 1, 0, 0]}) A B 0 2 1 1 2 0 2 1 0 3 0 0 4 5 1 5 3 1 6 0 1 7 4 0 (Я знаю, что A находится между 0 и 5; B только 0 ил…
03 апр '18 в 09:25
1
ответ
Как проанализировать результат t-SNE(KMeans) в Python?
Я использовал t-SNE для кластеризации KMeans, но после получения результата t-SNE я не мог понять, как я могу связать это с моими исходными данными. Может ли кто-нибудь помочь мне понять результат, и что мне делать дальше, чтобы лучше понять результ…
25 июн '18 в 11:43
1
ответ
brew install sklearn не работает Что делать дальше?
Привет, так что я слежу за видеоуроком, который требует от меня установки sklearn, quandl и pandas. К сожалению, автор видео использует Windows и не дал объяснения, что делать, если на Mac. Я подумал, что, возможно, смогу использовать homebrew, поэт…
26 янв '18 в 15:27
0
ответов
sklearn.feature_selection и RFECV
import pandas as pd from sklearn.cross_validation import StratifiedKFold from sklearn.feature_selection import SelectPercentile a = pd.read_csv('NCAA_2003-2016_with_diff.csv') logreg = lm.LogisticRegression() rfecv = RFECV(estimator=logreg, cv=10, s…
10 мар '17 в 21:47
1
ответ
Разделите тестовый набор на подгруппу, затем сделайте прогноз для каждой подгруппы отдельно
У меня есть набор данных, похожий на следующую таблицу: Целью прогноза будет столбец "Оценка". Мне интересно, как я могу разделить набор тестов на разные подгруппы, такие как оценка от 1 до 3, или затем проверить точность в каждой подгруппе. Теперь …
12 фев '19 в 05:17
0
ответов
Как сделать большие данные стратифицированной случайной выборки?
Здесь я прилагаю код Python, данные и ошибки, я хочу разделить данные методом стратифицированной случайной выборки, но получаю ошибку. Метод, который я использовал, упоминает здесь, дайте мне знать, что не так с этой программой. from sklearn.model_…
28 фев '19 в 05:31
3
ответа
КАК МАРКИРОВАТЬ ОСОБЕННОСТИ ЗНАЧЕНИЯ с лесами деревьев?
Я использую sklearn, чтобы построить график важности для лесов. Фрейм данных называется "сердце". Вот код для извлечения списка отсортированных функций: importances = extc.feature_importances_ indices = np.argsort(importances)[::-1] print("Feature r…
17 июн '16 в 09:10
2
ответа
Добавить новый столбец на основе существующих столбцов
Панды новичок здесь. Я пытаюсь создать новый столбец в моем фрейме данных, который будет служить меткой обучения, когда я добавлю это в классификатор. Значение столбца метки равно 1,0, если у данного идентификатора есть (Value1 > 0) или (Value2 > 0)…
02 сен '16 в 22:24
2
ответа
Начальная визуализация наборов данных в команде Scikit - head()
Рассматривая потенциальную эквивалентность Python для R для обработки данных, я работаю над основами. В частности, при загрузке базы данных, такой как Iris в R, простая команда head() производит красивую распечатку на экране: head(iris) Sepal.Length…
21 июн '17 в 16:13
1
ответ
Расчет баллов точности прогнозируемых непрерывных значений
Из sklearn.metrics импортировать precision_score точность_счетная (y_true, y_pred) Я верю, что этот код вернет точность наших прогнозов. Однако я сравниваю прогнозные и фактические значения непрерывных значений и считаю, что большинство из них не бу…
05 мар '18 в 03:36
1
ответ
Прогнозируемые результаты обратного преобразования
У меня есть CSV с обучающими данными с тремя столбцами (два для данных и третий для целей), и я успешно предсказал целевой столбец для моего тестового CSV. Проблема в том, что мне нужно преобразовать результаты обратно в строки для дальнейшего анали…
20 июн '18 в 18:51
1
ответ
Scikit учится тестировать сплит поезд
У меня есть данные, которые включают даты в отсортированном порядке. Я хотел бы разделить данные данные для обучения и тестирования набора. Однако я должен разделить данные таким образом, чтобы тест был новее, чем набор поездов. Пожалуйста, посмотри…
27 сен '16 в 06:03
2
ответа
Преобразование из числового массива float32 в числовой массив float64
Я пытаюсь реализовать randomforest в Python. Во время выполнения кода я получил эту ошибку. Хотя я уже перешел из float32 в float64 с помощью: x_arr = np.array(train_df, dtype='float64') Traceback(most recent call last): File "C:\Python27\randomfore…
13 июл '16 в 12:29