Описание тега data-science

Описание тега Вопросы с тегом

Наука о данных касается извлечения знаний или идей из данных в любой форме или форме. Он может содержать прогнозную аналитику и обычно требует много обработки данных. Рассмотрите возможность размещения на https://datascience.stackexchange.com/

1 ответ

sklearn StandardScaler, не разрешает прямое преобразование, нам нужно fit_transform

В чем разница между fit_transform и transform? Почему трансформация не работает напрямую? from sklearn.preprocessing import StandardScaler X_scaler = StandardScaler() X_train = X_scaler.fit_transform(X_train) X_test = X_scaler.transform(X_test) Если…

23 авг '18 в 14:20

0 ответов

Тестирование модели на AWS sagemaker "не удалось преобразовать строку в число с плавающей точкой"

Модель XGboost была обучена на AWS sagemaker и успешно развернута, но я продолжаю получать следующую ошибку: ModelError: Произошла ошибка (ModelError) при вызове операции InvokeEndpoint: полученная ошибка клиента (415) от модели с сообщением "не уда…

data-science amazon-sagemaker

05 окт '18 в 19:28

1 ответ

Как вписать значения в столбец, когда в других столбцах выполняются определенные условия, используя fillna()

Я рассчитал количество, когда credit_history имеет значения NaN. Вывод, когда Credit_History равен NaN: Self_Employed Yes 532 No 32 Married No 398 Yes 21 И для числовых значений я рассчитал среднее значение для всех столбцов вывод для нечисловых зна…

python pandas data-science ipython

03 мар '18 в 19:22

2 ответа

Как привести ось X в порядок (месяц) в R

Я хочу построить график с месяцем, но ось X не в порядке, например, "Apr","Aug","Nov"..... Но я хочу, чтобы порядок на оси X был похож на "Jan", "Фев", "Мар"........ #change the format of date date_month <- format(date_1, "%b") class(date_month) …

r plot data-science data-analysis

09 ноя '18 в 09:32

2 ответа

Открытие 20ГБ файла для анализа с пандами

Я новичок в науке о данных и Dta Analytics. Надеюсь, мой вопрос не слишком наивен. В настоящее время я пытаюсь открыть файл с пандами и python для целей машинного обучения, для меня было бы идеально, чтобы они все были в DataFrame. Теперь размер фай…

python pandas anaconda data-science bigdata

12 фев '18 в 14:08

0 ответов

Анализ последовательных правил как программный подход

В настоящее время я работаю с алгоритмом последовательного майнинга правил. Я разработал новый алгоритм майнинга последовательных правил с новым параметром. Может ли это (майнинг последовательных правил) рассматриваться как подход мягких вычислений?…

data-science data-mining pattern-mining

30 окт '17 в 16:56

2 ответа

Как я могу кодировать текстовые данные как функции для алгоритмов ML в Python?

У меня есть CSV-файл, в котором есть столбцы, заполненные текстовыми данными. Как я могу заменить их постоянными данными, чтобы применить алгоритм машинного обучения к этому набору данных. Пример набора данных: дата, имя, имя цвета, имя пользователя…

machine-learning data-science

14 ноя '17 в 11:26

2 ответа

Как получить кривую ROC для дерева решений?

Я пытаюсь найти кривую ROC и AUROC для дерева решений. Мой код был что-то вроде clf.fit(x,y) y_score = clf.fit(x,y).decision_function(test[col]) pred = clf.predict_proba(test[col]) print(sklearn.metrics.roc_auc_score(actual,y_score)) fpr,tpr,thre = …

python scikit-learn data-science auc

28 июл '17 в 14:46

0 ответов

Ошибка ввода / вывода при копировании из файловой системы hadoop в локальную

hadoop fs -copyToLocal /paulp /abcd (я хочу скопировать папку paulp в файловой системе hadoop в локальную папку abcd) Но результат этой команды выглядит следующим образом ( copyToLocal: mkdir `/abcd': ошибка ввода / вывода) Я использую Ubuntu 14.04 …

linux hadoop data-science bigdata

17 дек '16 в 10:44

1 ответ

Ядро SVC продолжает получать ошибки по параметрам в RandomSearchCV

* Этот пост продолжается здесь classifier = SVC() parameters = {"kernel": ["rbf", "linear"], "gamma": scipy.stats.expon(scale=.1), "c": scipy.stats.expon(scale=100), "class_weight": ["balanced", None]} randomcv = RandomizedSearchCV(estimator=classif…

machine-learning scikit-learn data-science jupyter svm

25 июн '18 в 10:52

2 ответа

Подстановка данных с использованием нескольких условий

Я пытаюсь заменить значения столбца наблюдением, учитывая набор условий. Данные как дано: Sex Age male 34.5 female NA male 62 male NA Я хочу заменить данные, где пол женский, а возрастное значение равно NA. В настоящее время я использую цикл for: fo…

r data-science

01 дек '17 в 22:32

1 ответ

Почему категорическая точность низкая при обучении MLP?

Я тренирую 3-х слойный MLP в керасе. Набор данных сильно несбалансирован и хотел бы увеличить скорость обнаружения модели. Всякий раз, когда я кодировал целевую / независимую переменную как числовую (то есть отображал из строки в число), оценка cate…

python-3.x machine-learning keras data-science artificial-intelligence

11 апр '18 в 15:34

2 ответа

Сюжет scikit-learn (sklearn) SVM решение границы / поверхности

В настоящее время я выполняю многоклассный SVM с линейным ядром, используя библиотеку scikit Python. Типовые данные обучения и данные тестирования приведены ниже: Данные модели: x = [[20,32,45,33,32,44,0],[23,32,45,12,32,66,11],[16,32,45,12,32,44,23…

python python-2.7 scikit-learn data-science svm

12 июл '18 в 04:43

1 ответ

Что МЭ на самом деле говорит мне?

Я создал простую модель линейной регрессии для прогнозирования цен закрытия S&P; 500. затем вычислил Среднее абсолютное отклонение (MAE) и получил оценку MAE 1290. Теперь я не хочу знать, правильно это или нет, но я хочу знать, что MAE из 1290 говор…

machine-learning data-science

29 окт '16 в 20:31

1 ответ

Keras model.predict для полиномиальной логистической регрессии

Я тренирую модель, выход которой - слой softmax размера 19. Когда я пытаюсь model.predict(x)для каждого входа я получаю то, что представляется распределением вероятностей по 19 классам. Я старался model.predict_classesи получил массив с размером x, …

python machine-learning keras neural-network data-science

10 янв '17 в 13:21

1 ответ

Фреймы данных Python Создание столбца "Создать / Ложь" из 3 других столбцов "Правда / Ложь"

Я работаю над этим с финансовым DataFrame. Я хочу создать столбец df['LB4'], который возвращает true, если все LB1, LB2 и LB3 верны. Date Open High Low Close Volume LB1 LB2 LB3 2005-01-03 4.63 4.65 4.47 4.52 173354034 False False False 2005-01-04 4.…

python data-science finance

25 июл '17 в 22:06

1 ответ

Что такое фактор в R и зачем он нам нужен

Я новичок в языке R и не могу понять необходимость использования / наличия факторов в R и это убивает меня. Я много читал, но до сих пор не нашел удовлетворительного ответа. Любая помощь приветствуется. Спасибо.

r statistics data-science

23 июл '17 в 06:10

0 ответов

Как настроить входной набор данных из папки изображений и CSV для классификации собак?

Я новичок в соревнованиях Kaggle и в целом обращаюсь с наборами данных изображений. Мне известно об обработке наборов данных этого и этого формата. Но я действительно изо всех сил пытаюсь найти учебники о том, как обращаться с набором данных для про…

python machine-learning data-science kaggle

01 фев '18 в 17:20

1 ответ

Консоль R выдает данные независимо от ошибки, а приложение Shiny - не из-за ошибки. Как я могу обойти ошибку в приложении Shiny?

Когда я запускаю приведенный ниже код в консоли R, я получаю следующую ошибку в строке 10: "Ошибка в lda.default(x, grouping, ...): переменные 5 6 кажутся постоянными внутри групп" Однако остальная часть кода все еще обрабатывается и данные выводятс…

r shiny data-science lda linear-discriminant

10 фев '17 в 15:54

4 ответа

Размер подвыборки в scikit-learn RandomForestClassifier

Как можно контролировать размер подвыборки, используемой для обучения каждого дерева в лесу? Согласно документации Scikit-Learn: Случайный лес - это метаоценщик, который подходит к ряду классификаторов дерева решений для различных подвыборок набора …

machine-learning scikit-learn data-science random-forest

28 ноя '16 в 15:19