Описание тега feature-engineering

Вопросы с тегом

Разработка функций - это процесс использования знаний о данных в предметной области для создания функций, которые заставляют алгоритмы машинного обучения работать.

0 ответов

Задание значения Popular_variables с помощью FeatureTools не работает

В настоящее время я работаю с документами по инструментам, используя мои собственные данные. Пока все работало нормально, но я застрял при добавлении интересных переменных. По некоторым причинам я не могу заставить это работать, и я не уверен почему…

05 окт '18 в 21:52

1 ответ

Как записать константы, полученные с помощью FeatureTools при использовании Deep Feature Synthesis

Когда FeatureTools выполняет глубокий синтез признаков, есть ли способ для записи постоянных значений, которые он получил? Например, у меня есть много строк, как это: | loan_id | loan_term | |---------|:---------:| | a | 12 | | ... | ... | | z | 18 …

feature-engineering featuretools

22 окт '18 в 15:33

0 ответов

Машинное обучение с использованием нескольких функций - обработка текста

У меня есть данные, как следующие: col1 col2 col3 2 14 text, text, some text Я прошел http://scikit-learn.org/stable/modules/preprocessing.html, но я мог только найти информацию для векторизации col3 и передать ее для классификации. В моем сценарии …

machine-learning nlp text-processing feature-extraction feature-engineering

27 мар '18 в 20:15

3 ответа

Распределите целое число по нескольким строкам столько раз, сколько оно разделено на константу

У меня есть датафрейм Date repair <date> <dbl> 2018-07-01 4420 2018-07-02 NA 2018-07-03 NA 2018-07-04 NA 2018-07-05 NA Где 4420 - время в минутах. Я пытаюсь получить это: Date repair <date> <dbl> 2018-07-01 1440 2018-07-02 14…

r dplyr tidyverse feature-engineering

06 фев '19 в 13:52

0 ответов

Установите нейронную сеть с метками разной величины

Я тренирую многоцелевую регрессионную модель с DNN (глубокая нейронная сеть) с релу в качестве функций активации. Данные обучения и оценки из разных категорий имеют разную величину, некоторые колеблются от 1 до 1000, некоторые колеблются от 1 до 10 …

machine-learning neural-network data-science normalization feature-engineering

03 янв '18 в 23:24

0 ответов

Ошибка с функцией заземления при использовании алгоритма MARS

Я запускаю свой алгоритм ML: EarthAlgo<-earth(cible~., data=train, degree=4, glm=list(family=binomial)) Я получил: Error in leaps.setup(x = bx, y = y, force.in = 1, force.out = NULL, intercept = FALSE, : NA/NaN/Inf in foreign function call (arg 3…

r machine-learning training-data feature-selection feature-engineering

25 янв '18 в 10:07

1 ответ

Использование Select-K-best на неизвестном тестовом наборе

Я обучил классификатор логистической регрессии в sklearn. Мой базовый файл объектов имеет 65 функций, теперь я экстраполировал их на 1000, учитывая также квадратичные комбинации (используя PolynomialFeatures()). Затем я уменьшил их до 100 с помощью …

machine-learning scikit-learn feature-engineering

13 июн '17 в 19:00

1 ответ

Нормализация столбца данных фрейма pyspark ML

Я пытаюсь сделать L1 нормализация значений столбца в кадре данных с использованием pyspark ML библиотека. Ниже мой код. Но это не удается сделать. Можете ли вы помочь мне выяснить, что не так с этим кодом? from pyspark.ml.feature import Normalizer y…

python dataframe apache-spark pyspark feature-engineering

09 июн '17 в 06:26

0 ответов

Как получить данные почтового индекса с помощью ACS (American Community Servey) и rStudio

Я работаю над назначением класса, используя rStudio, пакет ACS и набор данных. Мне нужно получить городские почтовые индексы и график количества передозировок наркотиков на один почтовый индекс. Тем не менее, у меня есть только минимальный опыт рабо…

r data-science rstudio feature-engineering

21 янв '19 в 18:12

0 ответов

Запись пакета dask с фреймом данных на диск (создание 2 миллионов функций с помощью dask и featuretools)

Я очень новичок как в Dask, так и в Featuretools, поэтому у меня возникло много трудностей при их объединении для параллельной разработки функций. Короткая версия: решение насущной проблемы У меня есть сумка для напитков dfs из pandas DataFrame и хо…

python dask dask-distributed feature-engineering featuretools

27 фев '19 в 15:14

0 ответов

Можем ли мы использовать разнообразные методы обучения для сжатия изображений, такие как PCA?

Я пытаюсь понять многообразное обучение для уменьшения размерности. Большинство примеров, которые я вижу, используют Isomap или LLE только для данных изображения, чтобы проецировать их на 2d, где можно проанализировать отношения между различными точ…

pca feature-extraction image-compression feature-engineering dimensionality-reduction

25 фев '19 в 13:43

1 ответ

Машинное обучение: особенности структурирования для классификации, когда несколько строк принадлежат одному и тому же идентификатору

Вот моя проблема: например, у меня есть таблица, содержащая информацию о поведении людей за месяц (несколько функций), у каждого человека есть уникальный идентификатор и уникальный ярлык (0 и 1). Я хочу использовать эти функции, чтобы предсказать, п…

python machine-learning feature-engineering

05 дек '18 в 13:41

1 ответ

Инженерия функций в электронной коммерции Веб-аналитика

Я очень новичок в этом форуме и задаю вопрос впервые. Я работаю над набором данных электронной коммерции для проекта, который включает эти две переменные - посещенную страницу (0/1) и выходы (num var со значениями -1,0,2,3......), которые указывают …

feature-engineering

25 дек '18 в 07:26

1 ответ

Как оценить сборку word2vec по конкретным контекстным файлам

Используя gensim word2vec, построил модель CBOW с кучей судебных файлов для представления слова как вектора в задаче распознавания именованных объектов, но я хочу знать, как оценить мое представление слов. Если я использую какие-либо другие наборы д…

machine-learning nltk gensim word2vec feature-engineering

30 окт '17 в 14:44

1 ответ

Как квантиль-дискретизировать на искре?

Я хочу квантильно-дискретизировать RDD[Float] до 10 штук без Spark.ML, поэтому мне нужно вычислить 10-й процентиль, 20-перцентиль...80-перцентиль,90-перцентиль набор данных очень большой, не может быть собран на локальный! Есть ли эффективный алгори…

apache-spark machine-learning bigdata feature-engineering

14 сен '17 в 14:16

1 ответ

Пользовательские агрегирующие примитивы с дополнительными аргументами?

Примитив преобразования прекрасно работает с дополнительными аргументами. Вот пример def string_count(column, string=None): ''' ..note:: this is a naive implementation used for clarity ''' assert string is not None, "string to count needs to be defi…

python machine-learning data-science feature-engineering featuretools

01 июн '18 в 05:48

0 ответов

Как бороться с регрессией нескольких экземпляров с естественным порядком и разным количеством экземпляров в сумке?

Извините за несколько двусмысленный заголовок, но я не был уверен, как описать проблему в одной строке. У меня возникла следующая проблема: В условиях контролируемого обучения у меня есть экземпляры, связанные с ними. Однако для некоторых случаев у …

feature-selection supervised-learning feature-engineering bag

16 июн '18 в 11:02

0 ответов

Разделение набора данных на тренировку и тестирование на основе нескольких функций класса в

У меня есть 5 категориальных переменных (v1-v5) и 1 числовая переменная (v6), которые имеют более 6 категорий в каждой, я хочу разбить все данные на Train(70%) и Test(30%). Я иногда сталкивался с этой проблемой из-за молчания, так как я использовал …

r feature-extraction feature-engineering

27 ноя '17 в 02:46

0 ответов

Как генерировать новые функции из анализа рассеянного графика, которые повысят точность модели lightgbm

Точечная диаграмма двух числовых особенностей X1 и X2: график рассеяния log(X1) и log(X2):

python data-analysis lightgbm feature-engineering

07 авг '18 в 02:16

3 ответа

Соотношение категорий

У меня есть некоторые категорические особенности в моих данных наряду с непрерывными. Является ли хорошей или абсолютно плохой идеей горячее кодирование элементов категории, чтобы найти их связь с метками вместе с другими непрерывными существами?

pandas machine-learning categorical-data feature-engineering

30 сен '17 в 00:37