Описание тега data-science
Наука о данных касается извлечения знаний или идей из данных в любой форме или форме. Он может содержать прогнозную аналитику и обычно требует много обработки данных. Рассмотрите возможность размещения на https://datascience.stackexchange.com/
1
ответ
sklearn StandardScaler, не разрешает прямое преобразование, нам нужно fit_transform
В чем разница между fit_transform и transform? Почему трансформация не работает напрямую? from sklearn.preprocessing import StandardScaler X_scaler = StandardScaler() X_train = X_scaler.fit_transform(X_train) X_test = X_scaler.transform(X_test) Если…
23 авг '18 в 14:20
0
ответов
Тестирование модели на AWS sagemaker "не удалось преобразовать строку в число с плавающей точкой"
Модель XGboost была обучена на AWS sagemaker и успешно развернута, но я продолжаю получать следующую ошибку: ModelError: Произошла ошибка (ModelError) при вызове операции InvokeEndpoint: полученная ошибка клиента (415) от модели с сообщением "не уда…
05 окт '18 в 19:28
1
ответ
Как вписать значения в столбец, когда в других столбцах выполняются определенные условия, используя fillna()
Я рассчитал количество, когда credit_history имеет значения NaN. Вывод, когда Credit_History равен NaN: Self_Employed Yes 532 No 32 Married No 398 Yes 21 И для числовых значений я рассчитал среднее значение для всех столбцов вывод для нечисловых зна…
03 мар '18 в 19:22
2
ответа
Как привести ось X в порядок (месяц) в R
Я хочу построить график с месяцем, но ось X не в порядке, например, "Apr","Aug","Nov"..... Но я хочу, чтобы порядок на оси X был похож на "Jan", "Фев", "Мар"........ #change the format of date date_month <- format(date_1, "%b") class(date_month) …
09 ноя '18 в 09:32
2
ответа
Открытие 20ГБ файла для анализа с пандами
Я новичок в науке о данных и Dta Analytics. Надеюсь, мой вопрос не слишком наивен. В настоящее время я пытаюсь открыть файл с пандами и python для целей машинного обучения, для меня было бы идеально, чтобы они все были в DataFrame. Теперь размер фай…
12 фев '18 в 14:08
0
ответов
Анализ последовательных правил как программный подход
В настоящее время я работаю с алгоритмом последовательного майнинга правил. Я разработал новый алгоритм майнинга последовательных правил с новым параметром. Может ли это (майнинг последовательных правил) рассматриваться как подход мягких вычислений?…
30 окт '17 в 16:56
2
ответа
Как я могу кодировать текстовые данные как функции для алгоритмов ML в Python?
У меня есть CSV-файл, в котором есть столбцы, заполненные текстовыми данными. Как я могу заменить их постоянными данными, чтобы применить алгоритм машинного обучения к этому набору данных. Пример набора данных: дата, имя, имя цвета, имя пользователя…
14 ноя '17 в 11:26
2
ответа
Как получить кривую ROC для дерева решений?
Я пытаюсь найти кривую ROC и AUROC для дерева решений. Мой код был что-то вроде clf.fit(x,y) y_score = clf.fit(x,y).decision_function(test[col]) pred = clf.predict_proba(test[col]) print(sklearn.metrics.roc_auc_score(actual,y_score)) fpr,tpr,thre = …
28 июл '17 в 14:46
0
ответов
Ошибка ввода / вывода при копировании из файловой системы hadoop в локальную
hadoop fs -copyToLocal /paulp /abcd (я хочу скопировать папку paulp в файловой системе hadoop в локальную папку abcd) Но результат этой команды выглядит следующим образом ( copyToLocal: mkdir `/abcd': ошибка ввода / вывода) Я использую Ubuntu 14.04 …
17 дек '16 в 10:44
1
ответ
Ядро SVC продолжает получать ошибки по параметрам в RandomSearchCV
* Этот пост продолжается здесь classifier = SVC() parameters = {"kernel": ["rbf", "linear"], "gamma": scipy.stats.expon(scale=.1), "c": scipy.stats.expon(scale=100), "class_weight": ["balanced", None]} randomcv = RandomizedSearchCV(estimator=classif…
25 июн '18 в 10:52
2
ответа
Подстановка данных с использованием нескольких условий
Я пытаюсь заменить значения столбца наблюдением, учитывая набор условий. Данные как дано: Sex Age male 34.5 female NA male 62 male NA Я хочу заменить данные, где пол женский, а возрастное значение равно NA. В настоящее время я использую цикл for: fo…
01 дек '17 в 22:32
1
ответ
Почему категорическая точность низкая при обучении MLP?
Я тренирую 3-х слойный MLP в керасе. Набор данных сильно несбалансирован и хотел бы увеличить скорость обнаружения модели. Всякий раз, когда я кодировал целевую / независимую переменную как числовую (то есть отображал из строки в число), оценка cate…
11 апр '18 в 15:34
2
ответа
Сюжет scikit-learn (sklearn) SVM решение границы / поверхности
В настоящее время я выполняю многоклассный SVM с линейным ядром, используя библиотеку scikit Python. Типовые данные обучения и данные тестирования приведены ниже: Данные модели: x = [[20,32,45,33,32,44,0],[23,32,45,12,32,66,11],[16,32,45,12,32,44,23…
12 июл '18 в 04:43
1
ответ
Что МЭ на самом деле говорит мне?
Я создал простую модель линейной регрессии для прогнозирования цен закрытия S&P; 500. затем вычислил Среднее абсолютное отклонение (MAE) и получил оценку MAE 1290. Теперь я не хочу знать, правильно это или нет, но я хочу знать, что MAE из 1290 говор…
29 окт '16 в 20:31
1
ответ
Keras model.predict для полиномиальной логистической регрессии
Я тренирую модель, выход которой - слой softmax размера 19. Когда я пытаюсь model.predict(x)для каждого входа я получаю то, что представляется распределением вероятностей по 19 классам. Я старался model.predict_classesи получил массив с размером x, …
10 янв '17 в 13:21
1
ответ
Фреймы данных Python Создание столбца "Создать / Ложь" из 3 других столбцов "Правда / Ложь"
Я работаю над этим с финансовым DataFrame. Я хочу создать столбец df['LB4'], который возвращает true, если все LB1, LB2 и LB3 верны. Date Open High Low Close Volume LB1 LB2 LB3 2005-01-03 4.63 4.65 4.47 4.52 173354034 False False False 2005-01-04 4.…
25 июл '17 в 22:06
1
ответ
Что такое фактор в R и зачем он нам нужен
Я новичок в языке R и не могу понять необходимость использования / наличия факторов в R и это убивает меня. Я много читал, но до сих пор не нашел удовлетворительного ответа. Любая помощь приветствуется. Спасибо.
23 июл '17 в 06:10
0
ответов
Как настроить входной набор данных из папки изображений и CSV для классификации собак?
Я новичок в соревнованиях Kaggle и в целом обращаюсь с наборами данных изображений. Мне известно об обработке наборов данных этого и этого формата. Но я действительно изо всех сил пытаюсь найти учебники о том, как обращаться с набором данных для про…
01 фев '18 в 17:20
1
ответ
Консоль R выдает данные независимо от ошибки, а приложение Shiny - не из-за ошибки. Как я могу обойти ошибку в приложении Shiny?
Когда я запускаю приведенный ниже код в консоли R, я получаю следующую ошибку в строке 10: "Ошибка в lda.default(x, grouping, ...): переменные 5 6 кажутся постоянными внутри групп" Однако остальная часть кода все еще обрабатывается и данные выводятс…
10 фев '17 в 15:54
4
ответа
Размер подвыборки в scikit-learn RandomForestClassifier
Как можно контролировать размер подвыборки, используемой для обучения каждого дерева в лесу? Согласно документации Scikit-Learn: Случайный лес - это метаоценщик, который подходит к ряду классификаторов дерева решений для различных подвыборок набора …
28 ноя '16 в 15:19