Описание тега scikit-learn

NoneScikit-learn is a machine-learning library for Python that provides simple and efficient tools for data analysis and data mining, with a focus on machine learning. It is accessible to everybody and reusable in various contexts. It is built on NumPy and SciPy. The project is open source and commercially usable (BSD license).
2 ответа

GridSearchCV - доступ к прогнозируемым значениям по всем тестам?

Есть ли способ получить доступ к прогнозируемым значениям, вычисленным в процессе GridSearchCV? Я хотел бы иметь возможность построить прогнозируемые значения у против их фактических значений (из набора испытаний / проверки). Когда поиск по сетке за…
03 апр '18 в 15:09
1 ответ

Определение определенных частей документа с использованием CRF

Моей целью является набор документов (в основном в финансовой сфере), нам необходимо определить его отдельные части, такие как название компании или тип документа и т. Д. Предполагается, что обучение будет проводиться на нескольких сотнях документов…
2 ответа

Вернуть перехват из sklearn enet_path

При использовании таких функций, как sklearn.linear_model.lasso_path, если return_models имеет значение False, возвращаемые значения - это альфа и коэффициенты. Тем не менее, перехваты для пути НЕ возвращаются, что означает, что коэффициенты не могу…
26 мар '14 в 16:38
1 ответ

Как запустить регрессию на несколько факторов с множеством факторов обучения, используя склеарн

Недавно я работал над попыткой заставить sklearn работать с моими данными. У меня есть 609 столбцов данных для каждой из моих ~20 тыс. Строк. Данные отформатированы следующим образом: Строки 0-7 представляют собой разные "выходные данные" (каждая из…
06 мар '17 в 13:46
1 ответ

sklearn StandardScaler, не разрешает прямое преобразование, нам нужно fit_transform

В чем разница между fit_transform и transform? Почему трансформация не работает напрямую? from sklearn.preprocessing import StandardScaler X_scaler = StandardScaler() X_train = X_scaler.fit_transform(X_train) X_test = X_scaler.transform(X_test) Если…
1 ответ

Понимание cross_val_score в kfold scitkit learn

Чтение документа для проверки перекрестного сгиба http://scikit-learn.org/stable/modules/cross_validation.html Я пытаюсь понять процедуру обучения для каждого сгиба. Это правильно: при создании cross_val_score каждая складка содержит новый набор для…
25 сен '17 в 13:24
1 ответ

Преобразование вывода списка в Python

У меня есть функция, которая работает следующим образом, чтобы прочитать файл.csv и сохранить его в массиве. def read_csv(self, filename, delimiter = ',', quotechar = '"'): reader = csv.reader(open(filename, 'rb'), delimiter = delimiter, quotechar =…
09 фев '14 в 20:54
2 ответа

Проведено обучение и валидация в gridsearchcv sklearn

Я вижу, что в gridsearchcv лучшие параметры определяются на основе cross-validation, но то, что я действительно хочу сделать, это определить лучшие параметры на основе one held out validation set вместо cross validation, Не уверен, есть ли способ сд…
0 ответов

scikit-learn, получая странный результат с регрессом SVR

Я действительно новичок в машинном обучении, и у меня возникают проблемы с получением результатов из моего набора данных с использованием алгоритма SVR. Мои данные состоят из 1800 наблюдений, и у меня есть 66 функций для прогнозирования этих наблюде…
05 май '16 в 13:39
0 ответов

Не может импортировать ближайших соседей в scikit-learn 0.16

Python 3.4.3 (v3.4.3:9b73f1c3e601, 23 февраля 2015, 02:52:03) [GCC 4.2.1 (Apple Inc., сборка 5666) (точка 3)] на darwin Тип "help", "copyright", " кредиты "или" лицензия "для получения дополнительной информации. import sklearn sklearn.__version__ '0…
08 май '15 в 12:51
1 ответ

Удалите числа и символы с помощью регулярных выражений на CountVectorizer

В настоящее время у меня есть функция CountVectorizer CountVectorizer(stop_words=stopwords.words('spanish'),token_pattern=r'(?u)\b\w\w+\b') с token_pattern по умолчанию используется Sklearn, и у меня есть некоторые результаты для get_features_names …
07 май '18 в 16:30
1 ответ

Запустить DBSCAN по траекториям

Я пытаюсь запустить DBSCAN (sklearn.cluster) на наборе данных траекторий. Набор данных представляет собой массив массивов (траекторий) массивов (точек) dataset_test = array([[[46.37017059, 30.954216 ], [46.39661026, 30.94524956], [46.46545792, 30.94…
22 окт '18 в 09:48
1 ответ

Особенности с высокой кардинальностью (как их векторизовать?)

Я пытаюсь запустить задачу машинного обучения, используя scikit learn для набора данных, и один из столбцов (функция) имеет высокую мощность около 300 КБ уникальных значений. Как мне векторизовать такую ​​функцию. Использование DictVectorizer не буд…
2 ответа

Scikit-Learn PCA

Я использую входные данные отсюда (см. Раздел 3.1). Я пытаюсь воспроизвести их ковариационную матрицу, собственные значения и собственные векторы, используя scikit-learn. Однако я не могу воспроизвести результаты, представленные в источнике данных. …
30 дек '14 в 04:21
1 ответ

Python sklearn.linear_model: LinearRegression() ValueError произошел, когда.predict()

Моя тренировочная матрица X имеет форму (5182, 19231), а у - список из 1 и 0 с длиной 5182. Моя тестовая матрица имеет форму (496, 5477). Я сохранил их в отдельных файлах рассола. Вот мой код: def read(pklFile1): f=open(pklFile1, 'rb') Y = cPickle.l…
0 ответов

UnicodeDecodeError: кодек "utf8" не может декодировать байт 0xb5 в позиции 894: недопустимый начальный байт

Я использую scikit-learn для проекта. При выполнении извлечения функций (учебное пособие working_with_text_data) я получаю UnicodeDecodeError: кодек "utf8" не может декодировать байт. Использование Python 2.7.8 и сборка scikit-learn используя make. …
08 май '15 в 06:46
1 ответ

Параметры для расчета точности части речевого тегера

Я новичок в обработке естественного языка, и у меня есть этот базовый вопрос о расчете точности POS Tagger (тегер использует корпус): (Не путайте слово "набор" ниже с математическим определением набора. Я просто использую его как обычное английское …
2 ответа

Scikit-Learn использование памяти классификации текста из ядра

Я пытаюсь использовать scikit-learn для классификации большого количества текстовых документов, хотя я использую неосновную функциональность (с SGDClassifier а также HashingVectorizer) программа, кажется, потребляет много оперативной памяти (>10 ГБ)…
14 мар '17 в 15:33
1 ответ

Понимание значений решения_функции

Я в настоящее время нахожусь в середине моего первого машинного обучения, и до сих пор я не совсем понимаю масштаб значений, которые я получаю от decision_function(X)(Ни как их понять). На основании документации sklearndecision_function(X) предназна…
21 июн '18 в 22:36
1 ответ

Многослойный персептрон в scikit-Learn

Я пытаюсь закодировать многослойный персептрон в scikit Learn 0.18dev, используя MLPClassifier. Я использовал решатель lbgfs, однако он выдает мне предупреждение: ConvergenceWarning: Stochastic Optimizer: достигнуто максимальное количество итераций,…
20 сен '16 в 00:49