Описание тега feature-engineering
Разработка функций - это процесс использования знаний о данных в предметной области для создания функций, которые заставляют алгоритмы машинного обучения работать.
0
ответов
Задание значения Popular_variables с помощью FeatureTools не работает
В настоящее время я работаю с документами по инструментам, используя мои собственные данные. Пока все работало нормально, но я застрял при добавлении интересных переменных. По некоторым причинам я не могу заставить это работать, и я не уверен почему…
05 окт '18 в 21:52
1
ответ
Как записать константы, полученные с помощью FeatureTools при использовании Deep Feature Synthesis
Когда FeatureTools выполняет глубокий синтез признаков, есть ли способ для записи постоянных значений, которые он получил? Например, у меня есть много строк, как это: | loan_id | loan_term | |---------|:---------:| | a | 12 | | ... | ... | | z | 18 …
22 окт '18 в 15:33
0
ответов
Машинное обучение с использованием нескольких функций - обработка текста
У меня есть данные, как следующие: col1 col2 col3 2 14 text, text, some text Я прошел http://scikit-learn.org/stable/modules/preprocessing.html, но я мог только найти информацию для векторизации col3 и передать ее для классификации. В моем сценарии …
27 мар '18 в 20:15
3
ответа
Распределите целое число по нескольким строкам столько раз, сколько оно разделено на константу
У меня есть датафрейм Date repair <date> <dbl> 2018-07-01 4420 2018-07-02 NA 2018-07-03 NA 2018-07-04 NA 2018-07-05 NA Где 4420 - время в минутах. Я пытаюсь получить это: Date repair <date> <dbl> 2018-07-01 1440 2018-07-02 14…
06 фев '19 в 13:52
0
ответов
Установите нейронную сеть с метками разной величины
Я тренирую многоцелевую регрессионную модель с DNN (глубокая нейронная сеть) с релу в качестве функций активации. Данные обучения и оценки из разных категорий имеют разную величину, некоторые колеблются от 1 до 1000, некоторые колеблются от 1 до 10 …
03 янв '18 в 23:24
0
ответов
Ошибка с функцией заземления при использовании алгоритма MARS
Я запускаю свой алгоритм ML: EarthAlgo<-earth(cible~., data=train, degree=4, glm=list(family=binomial)) Я получил: Error in leaps.setup(x = bx, y = y, force.in = 1, force.out = NULL, intercept = FALSE, : NA/NaN/Inf in foreign function call (arg 3…
25 янв '18 в 10:07
1
ответ
Использование Select-K-best на неизвестном тестовом наборе
Я обучил классификатор логистической регрессии в sklearn. Мой базовый файл объектов имеет 65 функций, теперь я экстраполировал их на 1000, учитывая также квадратичные комбинации (используя PolynomialFeatures()). Затем я уменьшил их до 100 с помощью …
13 июн '17 в 19:00
1
ответ
Нормализация столбца данных фрейма pyspark ML
Я пытаюсь сделать L1 нормализация значений столбца в кадре данных с использованием pyspark ML библиотека. Ниже мой код. Но это не удается сделать. Можете ли вы помочь мне выяснить, что не так с этим кодом? from pyspark.ml.feature import Normalizer y…
09 июн '17 в 06:26
0
ответов
Как получить данные почтового индекса с помощью ACS (American Community Servey) и rStudio
Я работаю над назначением класса, используя rStudio, пакет ACS и набор данных. Мне нужно получить городские почтовые индексы и график количества передозировок наркотиков на один почтовый индекс. Тем не менее, у меня есть только минимальный опыт рабо…
21 янв '19 в 18:12
0
ответов
Запись пакета dask с фреймом данных на диск (создание 2 миллионов функций с помощью dask и featuretools)
Я очень новичок как в Dask, так и в Featuretools, поэтому у меня возникло много трудностей при их объединении для параллельной разработки функций. Короткая версия: решение насущной проблемы У меня есть сумка для напитков dfs из pandas DataFrame и хо…
27 фев '19 в 15:14
0
ответов
Можем ли мы использовать разнообразные методы обучения для сжатия изображений, такие как PCA?
Я пытаюсь понять многообразное обучение для уменьшения размерности. Большинство примеров, которые я вижу, используют Isomap или LLE только для данных изображения, чтобы проецировать их на 2d, где можно проанализировать отношения между различными точ…
25 фев '19 в 13:43
1
ответ
Машинное обучение: особенности структурирования для классификации, когда несколько строк принадлежат одному и тому же идентификатору
Вот моя проблема: например, у меня есть таблица, содержащая информацию о поведении людей за месяц (несколько функций), у каждого человека есть уникальный идентификатор и уникальный ярлык (0 и 1). Я хочу использовать эти функции, чтобы предсказать, п…
05 дек '18 в 13:41
1
ответ
Инженерия функций в электронной коммерции Веб-аналитика
Я очень новичок в этом форуме и задаю вопрос впервые. Я работаю над набором данных электронной коммерции для проекта, который включает эти две переменные - посещенную страницу (0/1) и выходы (num var со значениями -1,0,2,3......), которые указывают …
25 дек '18 в 07:26
1
ответ
Как оценить сборку word2vec по конкретным контекстным файлам
Используя gensim word2vec, построил модель CBOW с кучей судебных файлов для представления слова как вектора в задаче распознавания именованных объектов, но я хочу знать, как оценить мое представление слов. Если я использую какие-либо другие наборы д…
30 окт '17 в 14:44
1
ответ
Как квантиль-дискретизировать на искре?
Я хочу квантильно-дискретизировать RDD[Float] до 10 штук без Spark.ML, поэтому мне нужно вычислить 10-й процентиль, 20-перцентиль...80-перцентиль,90-перцентиль набор данных очень большой, не может быть собран на локальный! Есть ли эффективный алгори…
14 сен '17 в 14:16
1
ответ
Пользовательские агрегирующие примитивы с дополнительными аргументами?
Примитив преобразования прекрасно работает с дополнительными аргументами. Вот пример def string_count(column, string=None): ''' ..note:: this is a naive implementation used for clarity ''' assert string is not None, "string to count needs to be defi…
01 июн '18 в 05:48
0
ответов
Как бороться с регрессией нескольких экземпляров с естественным порядком и разным количеством экземпляров в сумке?
Извините за несколько двусмысленный заголовок, но я не был уверен, как описать проблему в одной строке. У меня возникла следующая проблема: В условиях контролируемого обучения у меня есть экземпляры, связанные с ними. Однако для некоторых случаев у …
16 июн '18 в 11:02
0
ответов
Разделение набора данных на тренировку и тестирование на основе нескольких функций класса в
У меня есть 5 категориальных переменных (v1-v5) и 1 числовая переменная (v6), которые имеют более 6 категорий в каждой, я хочу разбить все данные на Train(70%) и Test(30%). Я иногда сталкивался с этой проблемой из-за молчания, так как я использовал …
27 ноя '17 в 02:46
0
ответов
Как генерировать новые функции из анализа рассеянного графика, которые повысят точность модели lightgbm
Точечная диаграмма двух числовых особенностей X1 и X2: график рассеяния log(X1) и log(X2):
07 авг '18 в 02:16
3
ответа
Соотношение категорий
У меня есть некоторые категорические особенности в моих данных наряду с непрерывными. Является ли хорошей или абсолютно плохой идеей горячее кодирование элементов категории, чтобы найти их связь с метками вместе с другими непрерывными существами?
30 сен '17 в 00:37