Описание тега sklearn-pandas

Модуль Python, обеспечивающий мост между методами машинного обучения Scikit-Learn и DataFrames в стиле панд.
2 ответа

Как найти и добавить столбец частоты для идентификатора?

Я новичок в питоне, так что терпите меня! Мой набор данных от Excel, и мне было интересно, как найти и добавить столбец частоты для моего идентификатора. Сначала я выполнил функцию группировки для идентификатора и даты, выполнив: dfcount = dfxyz.gro…
1 ответ

Работа с sklearn Boston Housing Dataset: Попытка создать фрейм данных для коэффициентов

Я запустил следующие строки кода import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline from sklearn.datasets import load_boston boston = load_boston() print(boston.data.shape) from sklearn.li…
09 авг '18 в 03:42
2 ответа

python TfidfVectorizer выдает typeError: ожидаемую строку или байтовоподобный объект в CSV-файле

Я анализирую очень большой CSV-файл и пытаюсь извлечь из него информацию tf-idf с помощью scikit. К сожалению, я никогда не заканчиваю обработку данных, так как он выдает эту ошибку типа. Есть ли способ программно изменить файл CSV, чтобы устранить …
12 май '17 в 20:48
1 ответ

Случайное лесное обращение с отрицанием

Я использую Случайный Лес, чтобы применить чувство к строке. Так что в основном после очистки отзывы, что по сути означает, что стоп-слова (nltk.corpus -> stopwords откуда я удаляю слова как нет, не, ни, выиграл, разве, когда-то) удаляются, а так…
3 ответа

Стандартизация до или после категориального кодирования?

Я работаю над алгоритмом регрессии, в данном случае k-NearestNeighbors, чтобы предсказать определенную цену продукта. Таким образом, у меня есть тренировочный набор, который имеет только одну категориальную особенность с 4 возможными значениями. Я и…
1 ответ

Как получить топ N часто встречающихся слов в каждом кластере? Sklearn

У меня есть текстовый корпус, который содержит более 1000 статей в каждой отдельной строке. Я использовал Hierarchy Clustering с использованием Sklearn в python для создания кластеров связанных статей. Это код, который я использовал для кластеризаци…
1 ответ

Невозможно преобразовать данные из файла CSV в sklearn

Я пытаюсь выучить некоторую классификацию в Scikit-learn. Однако я не мог понять, что означает эта ошибка. import pandas as pd from sklearn.feature_extraction.text import CountVectorizer data_frame = pd.read_csv('data.csv', header=0) data_in_numpy =…
1 ответ

Как двоично кодировать два смешанных объекта?

У меня есть набор данных, похожий на этот: import pandas as pd pd.DataFrame({"A": [2, 2, 1, 0, 5, 3, 0, 4, 5], "B": [1, 0, 0, 0, 1, 1, 1, 0, 0]}) A B 0 2 1 1 2 0 2 1 0 3 0 0 4 5 1 5 3 1 6 0 1 7 4 0 (Я знаю, что A находится между 0 и 5; B только 0 ил…
03 апр '18 в 09:25
1 ответ

Как проанализировать результат t-SNE(KMeans) в Python?

Я использовал t-SNE для кластеризации KMeans, но после получения результата t-SNE я не мог понять, как я могу связать это с моими исходными данными. Может ли кто-нибудь помочь мне понять результат, и что мне делать дальше, чтобы лучше понять результ…
1 ответ

brew install sklearn не работает Что делать дальше?

Привет, так что я слежу за видеоуроком, который требует от меня установки sklearn, quandl и pandas. К сожалению, автор видео использует Windows и не дал объяснения, что делать, если на Mac. Я подумал, что, возможно, смогу использовать homebrew, поэт…
26 янв '18 в 15:27
0 ответов

sklearn.feature_selection и RFECV

import pandas as pd from sklearn.cross_validation import StratifiedKFold from sklearn.feature_selection import SelectPercentile a = pd.read_csv('NCAA_2003-2016_with_diff.csv') logreg = lm.LogisticRegression() rfecv = RFECV(estimator=logreg, cv=10, s…
10 мар '17 в 21:47
1 ответ

Разделите тестовый набор на подгруппу, затем сделайте прогноз для каждой подгруппы отдельно

У меня есть набор данных, похожий на следующую таблицу: Целью прогноза будет столбец "Оценка". Мне интересно, как я могу разделить набор тестов на разные подгруппы, такие как оценка от 1 до 3, или затем проверить точность в каждой подгруппе. Теперь …
0 ответов

Как сделать большие данные стратифицированной случайной выборки?

Здесь я прилагаю код Python, данные и ошибки, я хочу разделить данные методом стратифицированной случайной выборки, но получаю ошибку. Метод, который я использовал, упоминает здесь, дайте мне знать, что не так с этой программой. from sklearn.model_…
28 фев '19 в 05:31
3 ответа

КАК МАРКИРОВАТЬ ОСОБЕННОСТИ ЗНАЧЕНИЯ с лесами деревьев?

Я использую sklearn, чтобы построить график важности для лесов. Фрейм данных называется "сердце". Вот код для извлечения списка отсортированных функций: importances = extc.feature_importances_ indices = np.argsort(importances)[::-1] print("Feature r…
2 ответа

Добавить новый столбец на основе существующих столбцов

Панды новичок здесь. Я пытаюсь создать новый столбец в моем фрейме данных, который будет служить меткой обучения, когда я добавлю это в классификатор. Значение столбца метки равно 1,0, если у данного идентификатора есть (Value1 > 0) или (Value2 > 0)…
02 сен '16 в 22:24
2 ответа

Начальная визуализация наборов данных в команде Scikit - head()

Рассматривая потенциальную эквивалентность Python для R для обработки данных, я работаю над основами. В частности, при загрузке базы данных, такой как Iris в R, простая команда head() производит красивую распечатку на экране: head(iris) Sepal.Length…
21 июн '17 в 16:13
1 ответ

Расчет баллов точности прогнозируемых непрерывных значений

Из sklearn.metrics импортировать precision_score точность_счетная (y_true, y_pred) Я верю, что этот код вернет точность наших прогнозов. Однако я сравниваю прогнозные и фактические значения непрерывных значений и считаю, что большинство из них не бу…
05 мар '18 в 03:36
1 ответ

Прогнозируемые результаты обратного преобразования

У меня есть CSV с обучающими данными с тремя столбцами (два для данных и третий для целей), и я успешно предсказал целевой столбец для моего тестового CSV. Проблема в том, что мне нужно преобразовать результаты обратно в строки для дальнейшего анали…
1 ответ

Scikit учится тестировать сплит поезд

У меня есть данные, которые включают даты в отсортированном порядке. Я хотел бы разделить данные данные для обучения и тестирования набора. Однако я должен разделить данные таким образом, чтобы тест был новее, чем набор поездов. Пожалуйста, посмотри…
2 ответа

Преобразование из числового массива float32 в числовой массив float64

Я пытаюсь реализовать randomforest в Python. Во время выполнения кода я получил эту ошибку. Хотя я уже перешел из float32 в float64 с помощью: x_arr = np.array(train_df, dtype='float64') Traceback(most recent call last): File "C:\Python27\randomfore…
13 июл '16 в 12:29