Описание тега feature-engineering

Разработка функций - это процесс использования знаний о данных в предметной области для создания функций, которые заставляют алгоритмы машинного обучения работать.
0 ответов

Задание значения Popular_variables с помощью FeatureTools не работает

В настоящее время я работаю с документами по инструментам, используя мои собственные данные. Пока все работало нормально, но я застрял при добавлении интересных переменных. По некоторым причинам я не могу заставить это работать, и я не уверен почему…
1 ответ

Как записать константы, полученные с помощью FeatureTools при использовании Deep Feature Synthesis

Когда FeatureTools выполняет глубокий синтез признаков, есть ли способ для записи постоянных значений, которые он получил? Например, у меня есть много строк, как это: | loan_id | loan_term | |---------|:---------:| | a | 12 | | ... | ... | | z | 18 …
22 окт '18 в 15:33
0 ответов

Машинное обучение с использованием нескольких функций - обработка текста

У меня есть данные, как следующие: col1 col2 col3 2 14 text, text, some text Я прошел http://scikit-learn.org/stable/modules/preprocessing.html, но я мог только найти информацию для векторизации col3 и передать ее для классификации. В моем сценарии …
3 ответа

Распределите целое число по нескольким строкам столько раз, сколько оно разделено на константу

У меня есть датафрейм Date repair <date> <dbl> 2018-07-01 4420 2018-07-02 NA 2018-07-03 NA 2018-07-04 NA 2018-07-05 NA Где 4420 - время в минутах. Я пытаюсь получить это: Date repair <date> <dbl> 2018-07-01 1440 2018-07-02 14…
06 фев '19 в 13:52
0 ответов

Установите нейронную сеть с метками разной величины

Я тренирую многоцелевую регрессионную модель с DNN (глубокая нейронная сеть) с релу в качестве функций активации. Данные обучения и оценки из разных категорий имеют разную величину, некоторые колеблются от 1 до 1000, некоторые колеблются от 1 до 10 …
0 ответов

Ошибка с функцией заземления при использовании алгоритма MARS

Я запускаю свой алгоритм ML: EarthAlgo<-earth(cible~., data=train, degree=4, glm=list(family=binomial)) Я получил: Error in leaps.setup(x = bx, y = y, force.in = 1, force.out = NULL, intercept = FALSE, : NA/NaN/Inf in foreign function call (arg 3…
1 ответ

Использование Select-K-best на неизвестном тестовом наборе

Я обучил классификатор логистической регрессии в sklearn. Мой базовый файл объектов имеет 65 функций, теперь я экстраполировал их на 1000, учитывая также квадратичные комбинации (используя PolynomialFeatures()). Затем я уменьшил их до 100 с помощью …
1 ответ

Нормализация столбца данных фрейма pyspark ML

Я пытаюсь сделать L1 нормализация значений столбца в кадре данных с использованием pyspark ML библиотека. Ниже мой код. Но это не удается сделать. Можете ли вы помочь мне выяснить, что не так с этим кодом? from pyspark.ml.feature import Normalizer y…
0 ответов

Как получить данные почтового индекса с помощью ACS (American Community Servey) и rStudio

Я работаю над назначением класса, используя rStudio, пакет ACS и набор данных. Мне нужно получить городские почтовые индексы и график количества передозировок наркотиков на один почтовый индекс. Тем не менее, у меня есть только минимальный опыт рабо…
21 янв '19 в 18:12
0 ответов

Запись пакета dask с фреймом данных на диск (создание 2 миллионов функций с помощью dask и featuretools)

Я очень новичок как в Dask, так и в Featuretools, поэтому у меня возникло много трудностей при их объединении для параллельной разработки функций. Короткая версия: решение насущной проблемы У меня есть сумка для напитков dfs из pandas DataFrame и хо…
0 ответов

Можем ли мы использовать разнообразные методы обучения для сжатия изображений, такие как PCA?

Я пытаюсь понять многообразное обучение для уменьшения размерности. Большинство примеров, которые я вижу, используют Isomap или LLE только для данных изображения, чтобы проецировать их на 2d, где можно проанализировать отношения между различными точ…
1 ответ

Машинное обучение: особенности структурирования для классификации, когда несколько строк принадлежат одному и тому же идентификатору

Вот моя проблема: например, у меня есть таблица, содержащая информацию о поведении людей за месяц (несколько функций), у каждого человека есть уникальный идентификатор и уникальный ярлык (0 и 1). Я хочу использовать эти функции, чтобы предсказать, п…
1 ответ

Инженерия функций в электронной коммерции Веб-аналитика

Я очень новичок в этом форуме и задаю вопрос впервые. Я работаю над набором данных электронной коммерции для проекта, который включает эти две переменные - посещенную страницу (0/1) и выходы (num var со значениями -1,0,2,3......), которые указывают …
25 дек '18 в 07:26
1 ответ

Как оценить сборку word2vec по конкретным контекстным файлам

Используя gensim word2vec, построил модель CBOW с кучей судебных файлов для представления слова как вектора в задаче распознавания именованных объектов, но я хочу знать, как оценить мое представление слов. Если я использую какие-либо другие наборы д…
1 ответ

Как квантиль-дискретизировать на искре?

Я хочу квантильно-дискретизировать RDD[Float] до 10 штук без Spark.ML, поэтому мне нужно вычислить 10-й процентиль, 20-перцентиль...80-перцентиль,90-перцентиль набор данных очень большой, не может быть собран на локальный! Есть ли эффективный алгори…
1 ответ

Пользовательские агрегирующие примитивы с дополнительными аргументами?

Примитив преобразования прекрасно работает с дополнительными аргументами. Вот пример def string_count(column, string=None): ''' ..note:: this is a naive implementation used for clarity ''' assert string is not None, "string to count needs to be defi…
0 ответов

Как бороться с регрессией нескольких экземпляров с естественным порядком и разным количеством экземпляров в сумке?

Извините за несколько двусмысленный заголовок, но я не был уверен, как описать проблему в одной строке. У меня возникла следующая проблема: В условиях контролируемого обучения у меня есть экземпляры, связанные с ними. Однако для некоторых случаев у …
0 ответов

Разделение набора данных на тренировку и тестирование на основе нескольких функций класса в

У меня есть 5 категориальных переменных (v1-v5) и 1 числовая переменная (v6), которые имеют более 6 категорий в каждой, я хочу разбить все данные на Train(70%) и Test(30%). Я иногда сталкивался с этой проблемой из-за молчания, так как я использовал …
27 ноя '17 в 02:46
0 ответов

Как генерировать новые функции из анализа рассеянного графика, которые повысят точность модели lightgbm

Точечная диаграмма двух числовых особенностей X1 и X2: график рассеяния log(X1) и log(X2):
3 ответа

Соотношение категорий

У меня есть некоторые категорические особенности в моих данных наряду с непрерывными. Является ли хорошей или абсолютно плохой идеей горячее кодирование элементов категории, чтобы найти их связь с метками вместе с другими непрерывными существами?